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内 容 近 要 


本 书展 示 了 优秀 的 C 程 序 员 所 使 用 的 编码 技巧 ， 并 专门 开辟 了 一 章 对 C++ 的 
基础 知识 进行 了 介绍 。 


本 书 对 C 的 历史 、 语 言 特性 、 声 明 、 数 组 、 指 针 、 链 接 、 运 行 时 、 内 存 以 及 
如 何 进一步 学 习 C++ 等 问题 进行 了 细致 的 讲解 和 深入 的 分 析 。 本 书 报 取 几 十 个 实 
例 进行 讲解 ， 对 C 程 序 员 具有 非常 高 的 实用 价值 。 


本 书 可 以 帮助 有 -一定 经 验 的 C 程 序 员 成 为 C 编 程 方面 的 专家 ， 对 于 C 语 言 功底 
深厚 的 程序 员 ， 本 书 可 以 帮助 他 们 站 在 C 的 高 度 了 解 和 学 习 C++。 


厚 


最 近 ， 我 在 逛 一 家 书店 时 ， 看 到 里 面 有 大 量 枯燥 乏味 的 C 和 C++ 图 书 ， 心 情 
格外 诅 丧 。 我 发 现 ， 极 少 有 作者 想 同 读者 传达 这 样 一 个 信念 : 任何 人 都 可 以 享受 
编程 。 在 见长 而 乏味 的 阅读 过 程 中 ， 所 有 的 奇妙 和 乐趣 都 烟消云散 了 。 如 果 你 硬 
着 头皮 把 它 哨 完 ， 或 许 会 有 长 进 。 但 编程 本 来 不 该 是 这 个 样子 的 ! 


编程 应 该 是 一 项 精妙 绝伦 、 充 满 生 机 、 富 有 挑战 的 活动 ， 而 讲述 编程 的 图 书 
也 应 能 令 读者 时 时 进 射出 油 情 的 火花 。 本 书 是 一 本 教学 性 质 的 图 书 ， 但 更 希望 重 
新 把 快乐 融入 编程 之 中 。 如 果 本 书 不 合 你 的 口味 ， 请 把 它 放 回 书架 ， 但 务必 放 到 
更 显眼 的 位 置 上 ， 这 里 先行 谢 过 。 


好 ， 听 过 这 个 开场 白 后 ， 你 不 免 有 疑问 : 关于 C 语 言 编程 的 书 可 以 说 是 不 胜 
枚 举 ， 那 么 这 本 书 又 有 什么 独到 之 处 呢 ? 


本 书 应 该 是 每 位 程序 员 的 第 二 本 学 习 C 语 言 的 图 书 。 这 里 所 提 到 的 绝 大 多 数 
教程 、 提 示 和 技巧 在 其 他 书 上 是 找 不 到 的 ， 即 使 有 的 话 ， 也 是 作为 心得 体会 写 在 
图 书 的 空白 处 或 旧 打 印 纸 的 背面 。 作 者 和 Sun 公 司 编译 器 、 操 作 系统 小 组 的 同事 
在 多 年 的 C 语 言 编程 实践 中 ,积累 了 大 量 的 知识 和 经 验 。 本 书 讲述 了 许多 有 趣 的 C 
语言 故事 和 轶 闻 ， 诸 如 连接 到 因特网 上 的 自动 售 货 机 、 太 空 软件 中 存在 的 问题 ， 
以 及 一 个 C 语 言 的 缺陷 怎样 使 整个 AT&T 长 途 电话 网 络 瘫痪 等 。 本 书 的 最 后 一 章 是 
C++ 语 言 的 轻松 教程 ， 可 帮助 你 熟悉 这 门 从 C 语 言 演化 而 来 的 日 益 流行 的 语言 。 


本 书 讲述 的 是 应 用 于 PC 和 UNIX 系 统 上 的 ANSI 标 准 C 语 言 ， 对 C 语 言 中 与 
UNIX 平 台 复 杂 的 硬件 结构 (如 虚拟 内 存 等 相关 的 特性 做 了 详细 描述 ， 也 对 PC 
的 内 存 模型 和 Intel 8086 系 列 对 C 语 言 产 生 的 影响 做 了 全 面 介绍 。 具 备 扎实 C 语 言 基 
础 的 人 很 快 就 会 发 现 书 中 充满 了 很 多 可 能 需要 多 年 实践 才能 领会 的 技巧 、 提 示 和 


捷径 。 它 履 盖 了 许多 令 C 程 序 员 困惑 的 主题 : 


。 typedef struct bar{ int bar; }bar 的 真正 意思 是 什么 ? 


。 我 怎样 把 一 些 大 小 不 同 的 多 维 数组 传递 到 同一 个 函数 中 ? 
。 为 什么 extern char *p; 同 另 一 个 文件 的 char p[100]; 不 能 够 匹配 ? 
。 什么 是 总 线 错误 (bus error) ? 什么 是 段 违 规 (segmentation violation ) ? 


e char *foo[] 和 char(*foo)[] 有 何不 同 ? 


如 果 你 对 这 些 问题 不 是 很 有 把 握 ， 很 想 知 道 C 语 言 专家 是 如 何 处 理 它们 的 ， 
那么 请 继续 阅读 本 书 ! 即使 你 对 这 些 问题 的 答案 已 经 7 了如指掌 ， 对 C 语 言 的 其 他 
细节 也 是 耳熟能详 ， 也 请 阅读 本 书 ， 继 续 充 实 你 的 知识 。 如 果 沉 得 不 好 意思 ， 就 
告诉 书店 职员 “是 给 朋友 买书 ”。 


Peter Van Der Linden 


加 州 硅谷 


C 代 码 。C 代 码 运行 。 运 行 码 运行 ..…... 请 ! 
一 一 Barbara Ling 
所 有 的 C 程 序 都 做 同一 件 事 ， 即 观察 一 个 字符 ， 然 后 喻 也 不 干 。 


一 一 Peter Weinberger 


你 是 否 注意 到 市 面 上 存 有 大 量 的 C 语 言 编 程 图 书 ， 它 们 的 书 名 具有 一 定 的 局 
示 性 ， 如 C Traps and Pitfalls、The C Puzzle Book、Obfuscated C and Other 
Mysteries 等 ， 而 其 他 的 编程 语言 好 像 没 有 类 似 这 种 书 名 的 图 书 。 这 里 有 一 个 很 充 
分 的 理由 ! 


C 语 言 编程 是 一 项 技艺 ， 需 要 多 年 历练 才能 达到 较为 完善 的 境界 。 一 个 头脑 
敏捷 的 人 很 快 就 能 学 会 C 语 言 中 的 基础 知识 。 但 要 想 品味 出 C 语 言 的 细微 之 处 ， 并 
通过 大 量 编写 各 种 不 同 的 程序 成 为 C 语 言 专家 ， 则 耗 时 甚 巨 。 打 个 比方 说 ， 这 是 
在 巴黎 点 一 杯 咖 啡 与 在 地 铁 里 告诉 土生 士 长 的 巴黎 人 该 在 哪里 下 车 之 间 的 差别 。 
本 书 是 一 本 关于 ANSI C 编 程 语 言 的 高 级 读物 。 它 适用 于 已 经 编写 过 C 程 序 的 人 ， 
以 及 那些 想 迅 速 获取 一 些 专家 观点 和 技巧 的 人 。 


编程 专家 在 多 年 的 实践 中 建立 了 自己 的 技术 工具 箱 ， 里 面 是 形形色色 的 习惯 
用 法 、 代 码 片段 和 灵活 掌握 的 技巧 。 他 们 汲取 其 他 成 功 者 的 经 验 教 训 ， 或 是 直接 
领悟 他 们 的 代码 ， 或 是 在 维护 其 他 人 的 代码 时 聆听 他 们 的 教诲 ， 随 着 时 间 的 推 
移 ， 逐 步 形成 了 这 些 东 西 。 成 为 C 编 程 高 手 的 另 一 种 途径 是 上 自省， 即 在 认识 错误 
的 过 程 中 进步 。 几 乎 每 个 C 语 言 编 程 新 手 曾 犯 过 下 面 这 样 的 书写 错误 : 


if(i = 3) 


正确 的 写法 应 该 是 : 


if(i == 3) 


一 旦 有 过 这 样 的 经 历 ， 这 种 痛苦 的 错误 (在 需要 进行 比较 时 误 用 了 赋值 符 
号 ) 一 般 就 不 会 再 犯 。 有 些 程序 员 甚 至 养 成 了 一 种 习惯 ， 即 在 比较 式 中 先 写 常 
数 ， 如 if(3 ==iD。 这 样 ， 如 果 不 小 心 误 用 了 赋值 符号 ， 编 译 器 就 会 发 出 “attempted 
assighnment to literal”( 试 图 向 常数 赋值 的 错误 信息 。 虽 然 在 比较 两 个 变量 时 ， 
这 种 技巧 起 不 了 作用 。 但 是 ， 积 少 成 多 ， 如 果 你 一 直 留 心 这 些小 技巧 ， 它 们 迟早 
会 对 你 有 所 帮助 。 


价值 2000 万 美元 的 Bug 


1993 年 春天 ， 在 SunSoft 的 操作 系统 开发 小 组 里 ， 我 们 接 到 了 一 个 “一 级 优 
先 ” 的 Bug 报 告 ， 是 一 个 关于 异步 /O 库 的 问题 。 如 果 这 个 Bug 不 解决 ， 将 会 使 一 桩 
价值 2000 万 美元 的 硬件 产品 生意 告吹 ， 因 为 对 方 需要 使 用 这 个 库 的 功能 。 所 以 ， 
我 们 顶 着 重 压 寻 找 这 个 Bug。 经 过 几 次 紧张 的 调试 ， 问 题 被 圈定 在 下 面 这 条 语句 
上 : 


X == 2; 


这 是 个 录入 错误 ， 它 的 原意 是 一 条 赋值 语句 。 但 程序 员 的 手指 在 “=” 键 上 不 小 
心 多 按 了 一 下 。 这 条 语句 成 了 将 x 与 2 进行 比较 ， 比 较 的 结果 是 true 或 者 false， 然 后 


丢弃 这 个 比较 结果 。 


C 语 言 的 表达 能 力也 实在 是 强 ， 编 译 器 对 于 “ 求 一 个 表达 式 的 值 ， 但 不 使 用 该 
值 ” 这 样 的 语句 竟然 也 能 接受 ， 并 且 不 发 出 任何 警告 ， 只 是 简单 地 把 返回 结果 丢 
弃 。 我 们 不 知道 是 应 该 为 及 时 找到 这 个 问题 的 好 运气 而 庆 和 地， 还 是 应 该 为 这 样 一 
个 常见 的 录入 错误 可 能 付出 高 昂 的 代价 而 痛心 疾 首 。 有 些 版 本 的 lint 程 序 已 经 能 够 
检测 到 这 类 问题 ,但 人 们 很 容易 忽视 这 些 有 用 的 工具 。 


本 书 收集 了 其 他 许多 有 益 的 故事 。 它 记录 了 许多 经 验 丰 富 的 程序 员 的 智慧 ， 
避免 读者 再 走 弯路 。 当 你 来 到 一 个 看 上 去 很 熟 的 地 方 ， 却 发 现 许多 角落 依然 陌 
生 ， 而 本 书 就 像 是 一 个 细心 的 向 导 ， 帮 助 你 探索 这 些 角 落 。 本 书 对 一 些 主要 话题 
如 声明 、 数 组 /指针 等 做 了 深入 的 讨论 ， 同 时 提供 了 许多 提示 和 记忆 方法 。 本 书 从 
头 到 尾 采 用 了 ANSI C 的 术语 ， 在 必要 时 会 用 日 常用 语 来 诠释 。 


编程 挑战 


荐 
六 


小 启发 
例 框 


我 们 设置 了 “编程 挑战 ”这 个 小 栏目 ， 像 这 样 以 框 的 形式 出 现 。 


框 中 会 针对 你 所 编写 的 程序 给 出 一 些 建议 。 
男 外 ， 我 们 还 设置 了 “小 启发 "这 个 栏目 ， 它 也 是 以 框 的 形式 出 现 的 。 


“小 启发 "里 出 现 的 是 在 实际 工作 中 产生 一 些 想 法 、 经 验 和 指导 方针 。 你 可 以 
在 编程 中 应 用 它们 。 当 然 ， 如 果 你 已 经 有 了 更 好 的 指导 原则 ， 也 完全 可 以 不 理会 


它们 。 


约定 


我 们 所 采用 的 一 个 约定 是 用 蔬 沫 和 水 果 的 名 字 来 代表 变量 的 名 字 【〈 当 然 只 适 
用 于 小 型 程序 片段 ， 现 实 中 的 程序 不 可 如 此 ) : 


char pear[46] ; 
double peach ; 

int mango = 13; 
long melon = 2661 ; 


这 样 就 很 容易 区 分 哪些 是 关键 字 ， 哪 些 是 程序 员 所 提供 的 变量 名 。 有 些 人 或 
许 会 将， 你 不 能 拿 革 果 和 橘子 作 比 较 。 但 为 什么 不 行 呢 ? 它们 都 是 在 树 上 生长 、 
拳头 大 小 、 圆 圆 的 可 食 之 物 。 一 旦 你 习惯 了 这 种 用 法 ， 融 会 发 现 它 很 有 用 。 必 外 
还 有 一 个 约定 ， 即 有 时 我 们 会 重复 茶 个 要 点 ， 以 示 强 调 。 


和 精美 食谱 一 样 ， 本 书 准 备 了 许多 可 口 的 东西 ， 以 实例 的 样式 奉献 给 读者 。 
一 章 都 被 分 成 几 个 彼此 相关 而 又 独立 的 小 节 。 无 论 是 从 头 到 尾 认真 阅读 ， 还 是 
征 意 翻 开 一 章 选 择 一 个 单独 的 主题 细 细 品味 ， 都 是 相当 容易 的 。 许 多 技术 细节 都 
藏 于 C 语 言 在 实际 编程 中 的 一 些 真 实 故 事 里 。 幽 默 对 于 学 习 新 东西 是 相当 重要 
的 ， 所 以 我 在 每 一 章 都 以 一 个 “轻松 一 下 ?的 小 栏目 结尾 。 这 个 栏目 包含 了 一 个 有 
趣 的 C 语 言 故 事 ， 或 是 一 段 软件 轶 闻 ， 让 读者 在 学 习 的 过 程 中 轻松 片刻 。 


el 


二 


读者 可 以 把 本 书 当 作 C 语 言 编程 的 思路 集锦 ， 或 是 C 语 言 提示 和 习惯 用 法 的 集 
合 ， 也 可 以 从 经 验 丰 是 的 编译 器 作者 那里 汲取 营养 ， 更 轻松 地 学 习 ANSIC。 总 

之 ， 它 把 所 有 的 信息 、 提 示 和 指导 方针 都 放 在 一 个 地 方 ， 让 你 慢 慢 品味 。 所 以 ， 
请 赶紧 翻 开 书 ， 拿 出 笔 ， 舒 舒服 服 在 坐 在 计算 机 前 ， 开 始 快乐 的 学 习 之 旅 吧 ! 


轻松 一 下 一 一 优化 文件 系统 


偶尔 ， 在 C 和 UNIX 中 ， 有 些 方面 是 令 人 感觉 相当 轻松 的 。 只 要 出 发 点 合理 ， 
什么 样 的 奇 思 妙 想 都 不 为 过 。IBM/Motorola/Apple PowerPC 架 构 具 有 一 种 E.LE.I.O 
站 令 串 ， 代 表 “Enforce In-Order Execution of WO”( 在 WO 中 实行 按 顺 序 执行 的 方 
针 ) 。 与 这 种 思想 相 类 似 ， 在 UNIX 中 也 有 一 条 称 作 tunefs 的 命令 ， 高 级 系统 管理 
员 用 它 修 改 文件 系统 的 动态 参数 ， 并 优化 磁盘 中 文件 块 的 布局 。 


和 其 他 的 Berkeley 呈 命令 一 样 ， 在 早期 的 tunefs 在 线 手册 上 ， 也 是 以 一 个 标题 
为 “Bugs” 的 小 节 来 结尾 。 内 容 如 下 : 


Bugs: 


这 个 程序 本 来 应 该 在 安装 好 的 (mounted) 和 活动 的 文件 系统 上 运行 ， 但 事 
实 上 并 非 如 此 。 因 为 超级 块 〈superblock) 并 不 是 保持 在 高 速 缓冲 区 中 ， 所 以 只 有 
当 该 程序 运行 在 未 安装 好 的 〈dismounted) 文件 系统 中 时 才 有 效 。 如 果 运 行 于 根 
文件 系统 ， 系 统 必须 重新 启动 。 


你 可 以 优化 一 个 文件 系统 ， 但 不 能 优化 一 条 鱼 。 


更 有 甚 者 ， 在 文字 处 理 
器 的 源 文 件 中 有 一 条 关于 它 的 注释 ， 警 告 任何 人 不 得 忽视 上 面 这 段 话 ! 内 容 如 
下 : 


如 果 忽 视 这 段 话 ， 你 就 等 着 烦 吧 。 一 个 UNIX 里 的 怪物 会 不 断 地 纠缠 你 ， 直 
到 你 受 不 了 为 止 。 


当 SUN 和 其 他 一 些 公司 转 到 SVr4 UNIX 平 台 时 ， 我 们 就 看 不 到 这 条 警告 
在 SVr4 的 手册 中 也 没有 了 “Bugs” 这 一 节 ， 而 是 改名 为 “注意 ” (会 不 会 误导 大 
家 ? )“ 优 化 一 条 鱼 ” 这 样 的 妙语 也 不 见 了 。 作 出 这 个 修改 的 人 现在 一 定 在 受 UNIX 
里 面 怪物 的 纠缠 ， 自 作 自 受 ! 


编程 挑战 
计算 机 日 期 
关于 time _t， 什 么 时 候 它 会 到 达 尽 头 ， 重 新 回 到 开始 呢 ? 


写 一 个 程序 ， 找 出 答案 。 


1. 查看 一 下 time t 的 定义 ， 它 位 于 文件 usevinclude/time.h 中 。 


2. 编写 代码 ， 在 一 个 类 型 为 time_t 的 变量 中 存放 time_t 的 最 大 值 ， 然 后 把 它 
传递 给 ctime() 函 数 ， 转 换 成 ASCII 字 符 串 并 打印 出 来 。 注 意 ctime() 函 数 同 C 语 言 并 
没有 任何 关系 ， 它 只 表示 “转换 时 间 ”。 


如 果 程 序 设 计 者 去 掉 了 程序 的 注释 ， 那 么 多 少年 以 后 ， 他 不 得 不 担心 该 程序 
会 在 UNIX 平 台 上 溢出 。 请 修改 程序 ， 找 出 答案 。 


1. 调用 time() 获 得 当前 的 时 间 。 


2. 调用 difftime() 获 得 当前 时 间 和 time_t 所 能 表示 的 最 大 时 间 值 之 间 的 差 值 
(以 秒 计算 )。 


3. 把 这 个 值 格式 化 为 年 、 月 、 周 、 日 、 小 时 、 分 钟 的 形式 ， 并 打印 出 来 。 


它 是 不 是 比 一 般 人 的 寿命 还 要 长 ? 


医 


解决 方案 


计算 机 日 期 


这 个 练习 的 结果 在 不 同 的 PC 和 UNIX 系 统 上 有 所 差异 ， 而 且 它 还 与 time_t 的 存 
储 形式 有 关 。 在 Sun 系 统 中 ，time_t 是 long 的 typedef 形 式 。 我 们 所 尝试 的 第 一 个 解 
决 方 案 如 下 : 


#include <stdio.h> 
#include <time.h> 


int main() { 
time t biggest= Ox7FFFFFFF; 


printf("biggest = %s \n", ctime(&biggest)); 
return ©; 


} 


这 是 一 个 输出 结 


biggest = Mon Jan 18 19:14:67 2638 


显然 ， 这 不 是 正确 的 结果 。ctime() 函 数 把 参数 转换 为 当地 时 间 ， 它 跟 世 界 统 
一 时 间 UTC 格林尼治 时 间 〉 并 不 一 致 ， 取 决 于 你 所 在 的 时 区 。 本 书写 作 地 是 加 
利 福 尼 亚 ， 比 伦敦 晚 8 小 时 ， 而 且 现 在 的 年 份 跟 最 大 时 间 值 的 年 份 相差 甚 远 。 


事实 上 ， 我 们 应 该 采用 gmtime() 函 数 来 取得 最 大 的 UTC 时 间 值 。 这 个 函数 并 
不 返回 一 个 可 打印 的 字符 串 ， 所 以 不 得 不 用 asctime() 函 数 来 获取 一 个 这 样 的 字符 
串 。 权 衡 各 方面 情况 后 ， 修 订 过 的 程序 如 下 : 


#includex<stdio.h> 
#include<time.h> 


int main() { 
time t biggest = @x7FFFFFFF; 
printf("biggest = %s \n", asctime(gmtime(&biggest))); 
return 0; 


} 


它 给 出 了 如 下 的 结果 : 
biggest = Tue Jan 19 03:14:07 2038 
看 ! 这 样 就 挤 出 了 8 小 时 。 


但 是 ， 我 们 并 未 大 功 告 成 。 如 果 你 采用 的 是 新 西 兰 的 时 区 ， 就 会 又 多 出 13 小 
时 ， 前 提 是 新 西 兰 在 2038 年 仍然 采用 和 夏令 时 。 新 西 兰 在 1 月 时 采用 的 是 夏令 时 
《因为 位 于 南半球 ) 。 但 是 ， 由 于 新 西 兰 的 最 东 端 位 于 日 界线 的 东 面 ， 在 那里 它 
应 该 比 格林 尼 治 时 间 晚 10 小 时 而 不 是 早 14 小 时 。 这 样 ， 新 西 兰 由 于 其 独特 的 地 理 
位 置 ， 不 幸 成 为 该 程序 的 第 一 个 Bug 的 受害 者 。 


即使 像 这 样 简 单 的 问题 也 可 能 在 软件 中 潜藏 令 人 吃惊 的 隐患 。 如 果 有 人 觉得 
对 日 期 进行 编程 是 小 沫 一 碟 ， 一 次 动手 便 可 轻松 搞定 ， 那 么 他 肯定 没有 深入 研究 
问题 ， 程 序 的 质量 也 可 想 而 知 。 


[1] 可 能 是 由 一 个 名 叫 McDonald 的 老农 设计 的 。 


[2] 加 州 大 学 伯克利 分 校 ，UNIX 系 统 的 许多 版 本 都 是 在 那里 设计 的 。 一 一 译 者 注 


资源 与 文 持 


本 书 由 异步 社区 出 品 ， 社 区 〈https:/www.epubit.com/) 为 您 提供 相关 资源 和 
后 续 服 务 。 


提交 勘误 


作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ， 但 难免 会 存在 芷 漏 。 欢 迎 
您 将 发 现 的 问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 


当 您 发 现 错误 时 ， 请 登录 异步 社区 ， 按 书 名 搜索 ， 进 入 本 书页 面 ， 单 击 "提交 
勘误 ”， 输 入 勘误 信息 ， 单 击 “提交 "按钮 即 可 。 本 书 的 作者 和 编辑 会 对 您 提交 的 其 
误 进行 审核 ， 确 认 并 接受 后 ， 您 将 获 赠 异 步 社区 的 100 积 分 。 积 分 可 用 于 在 异步 

社区 兑换 优惠 券 、 样 书 或 奖品 。 


与 我 们 联系 
我 们 的 联系 邮箱 是 contact@epubit.com.cn。 


如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 发 邮件 给 我 们 ， 并 请 在 邮件 标题 中 注 
明 本 书 书 名 ， 以 便 我 们 更 高 效 地 做 出 反馈 。 


如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 审 校 等 工 
作 ， 可 以 发 邮件 给 我 们 ;有意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 投稿 (直接 


访问 www.epubit.com/selfpublish/ submission 即 可 ) 。 


如 果 您 所 在 的 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 
他 图 书 ， 也 可 以 发 邮件 给 我 们 。 


如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 ， 包 括 对 
图 书 全 部 或 部 分 内 容 的 非 授权 传播 ， 请 您 将 怀疑 有 侵权 行为 的 链接 发 邮件 给 我 
们 。 您 的 这 一 举动 是 对 作者 权益 的 保护 ， 也 是 我 们 持续 为 您 提供 有 价值 的 内 容 的 
动力 之 源 。 


关于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗下 IT 专 业 图 书社 区 ， 致 力 于 出 版 精品 IT 技 术 
图 书 和 相关 学 习 产 品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社区 创办 于 2015 年 8 
月 ， 提 供 大 量 精 品 IT 技术 图 书 和 电子 书 ， 以 及 高 品质 技术 文章 和 视频 课程 。 更 多 
详情 请 访问 异步 社区 官网 https:/www.epubit.com。 


“异步 图 书 ” 是 由 异步 社区 编辑 团队 集 划 出 版 的 精品 工 专 业 图 书 的 品牌 ， 依 托 
于 人 民 邮 电 出 版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团队 ， 相 关 图 书 在 封 
面 上 印 有 异步 图 书 的 LOGO。 和 异步 图 书 的 出 版 领域 包括 软件 开发 、 大 数据 、AT、 
测试 、 前 端 、 网 络 技术 等 。 


微 信 服务 号 


第 l 革 C: 罕 越 时 空 的 类 和 盈 


C 诡 异 离奇 ， 缺 陷 重重 ， 却 获得 了 巨大 的 成 功 。 


Dennis Ritchie 


1.1 C 语 言 的 史前 阶段 


听 上 去 有 些 匾 廖 ，C 语 言 的 产生 竟然 源 于 一 个 失败 的 项 目 。1969 年 ， 通 用 电 
气 、 麻 省 理工 学 院 和 贝尔 实验 室 联合 创立 了 一 个 庞大 的 项 目 一 一 Multics 工 程 。 该 
项 目的 目的 是 创建 一 个 操作 系统 ， 但 显然 遇 到 了 麻烦 : 它 不 但 无 法 交付 原先 所 承 
诺 的 快速 而 便捷 的 在 线 系统 ， 其 至 连 一 点 有 用 的 东西 都 没有 做 出 来 。 虽 然 开 发 小 
组 最 终 钢 强 让 Multics 开 动 起 来 ， 但 他 们 还 是 陷入 了 泥 淹 ， 就 像 IBM 在 OS/360 上 面 
一 样 。 他 们 试图 建立 一 个 非常 巨大 的 操作 系统 ， 能 够 应 用 于 规模 很 小 的 硬件 系统 
中 。Multics 成 了 总 结 工程 教训 的 宝库 ， 但 它 同时 也 为 C 语 言 体现 “小 即 是 美 ? 铺 平 
了 道路 。 


当心 灰 意 冷 的 贝尔 实验 室 的 专家 撤离 Multics 工 程 后 ， 他 们 又 去 寻找 其 他 任 
务 。 其 中 一 位 名 叫 Ken Thompson 的 研究 人 员 对 另 一 个 操作 系统 很 感 兴趣 ， 他 为 此 
好 几 次 向 贝尔 管理 层 提 议 ， 但 均 草 否决。 在 等 待 官方 批准 时 ，Thompson 和 他 的 同 
事 Dennis Ritchie 自 娱 自 乐 ， 把 Thompson 的 “太空 旅行 "软件 移植 到 不 太 常 用 的 PDP- 
7 系统 上 。 太 空 旅 行 软件 模拟 太阳 系 的 主要 星体 ， 把 它们 显示 在 图 形 屏 幕 上 ， 并 
创建 了 一 架 航 天 飞机 ， 它 能 够 飞行 并 降落 到 各 个 行星 上 。 与 此 同时 ，Thompson 加 
紧 工 作 ， 为 PDP-7 编 写 了 一 个 简易 的 新 型 操作 系统 。 它 比 Multics 简 单 得 多 ， 也 轻 
便 得 多 。 整 个 系统 都 是 用 汇编 语言 编写 的 。Brian Kernighan 在 1970 年 给 它 取 名 为 
UNIX， 目 嘲 地 总 结 了 从 Multics 中 获得 的 教训 。 图 1-1 描 述 了 早期 C、UNIX 和 相关 
硬件 系统 的 关系 。 


语 
操作 系统 


UNIX UNIX UNIX =— 
(用 PDP-7 汇 编 语言 编写 ) (用 PDP-11 汇 编 语言 编写 ) (用 C 编 写 ) 
PE 


硬件 
we | | 
IBM 360 
Honeywell 635 


图 1-1 早期 C、UNIX 和 相关 的 硬件 系统 


是 先 有 C 语 言 还 是 先 有 UNIX 呢 ?说 起 这 个 问题 ， 人 们 很 容易 陷入 “ 先 有 鸡 还 
是 先 有 和 蛋 ” 的 问题 中 。 确 切 地 说 ，UNIX 比 C 语 言 出 现 得 早 〈 这 也 是 为 什么 UNIX 的 
系统 时 间 是 从 1970 年 1 月 1 日 起 按 秒 计算 的 ， 因 为 它 就 是 那 时 候 产 生 的 ) 。 然 而 ， 
我 们 这 里 讨论 的 不 是 家 禽 趣 闻 ， 而 是 编程 故事 。 用 汇编 语言 编写 UNIX 显 得 很 第 
拙 ， 在 编制 数据 结构 时 会 浪费 大 量 的 时 间 ， 而 且 系 统 难 以 调试 ， 理 解 起 来 也 很 困 
难 。Thompson 想 利用 高 级 语言 的 一 些 优点 ， 但 又 不 想像 PL/AI 那 样 效率 低下 ， 也 
不 想 碰 见 在 Multics 中 曾 遇 到 过 的 复杂 问题 。 在 用 Fortran 进 行 了 一 乍 简短 而 又 不 成 
功 的 尝试 之 后 ，Thompson 创 建 了 B 语 言 ， 他 把 用 于 研究 的 语言 BCPLDI 作 了 简化 ， 
使 B 的 解释 器 能 常 驻 于 PDP-7 只 有 8KB 大 小 的 内 存 中 。B 语 言 从 来 不 曾 真正 成 功 
过 ， 因 为 硬件 系统 的 内 存 限制 ， 它 只 允许 放置 解释 器 ， 而 不 是 编译 器， 由 此 产生 
的 低 效 阻碍 了 使 用 B 语 言 进 行 UNIX 自 喘 的 系统 编程 。 


BE,,. 
软件 信条 


编译 占 设 计 者 的 金 科 玉 律 : 效率 〈 几 乎 ) 就 是 一 切 


在 编译 器 中 ， 效 率 几 乎 就 是 一 切 。 当 然 还 有 一 些 其 他 需要 关心 的 东西 ， 如 有 
意义 的 错误 信息 、 良 好 的 文档 和 产品 支持 。 但 与 用 户 需 要 的 速度 相 比 ， 这 些 因素 
就 黯然 失色 了 。 编 译 器 的 效率 包括 两 个 方面 : 运行 效率 (代码 的 运行 速度 ) 和 编 
译 效 率 〈 产 生 可 执行 代码 的 速度 ) 。 除 了 一 些 开 发 和 学 习 环 境 之 外 ， 运 行 效率 起 
决定 性 作用 。 


有 很 多 编译 优化 措施 会 延长 编译 时 间 ， 但 能 缩短 运行 时 间 。 还 有 一 些 优化 措 
施 《 如 清除 无 用 代码 和 忽略 运行 时 检查 等 ) 既 能 缩短 编译 时 间 ， 又 能 减少 运行 时 
间 ， 同 时 还 能 减少 内 存 的 使 用 量 。 这 些 优 化 措施 的 不 利之 处 在 于 可 能 无 法 发 现 程 
序 中 无 效 的 运行 结果 。 优 化 措施 本 身 在 转换 代码 时 是 非常 谨慎 的 ， 但 如 果 程 序 员 
编写 了 无 效 的 代码 〈 如 越过 数组 边界 引用 对 象 ， 因 为 他 们 “知道 "附近 有 需要 的 变 
量 ) 就 可 能 引发 错误 的 结果 。 


这 就 是 为 什么 说 “效率 几乎 就 是 一 切 ” 并 不 是 绝对 的 。 如 果 得 到 的 结果 是 不 正 
确 的 ， 那 么 效率 再 高 又 有 什么 意义 呢 ? 编 译 器 设计 者 通常 会 提供 一 些 编译 器 选 
项 。 这 样 ， 每 个 程序 员 可 以 选择 自己 想 要 的 优化 措施 。B 语 言 不 算 成 功 ， 而 
Dennis Ritchie 所 创造 的 注重 效率 的 “New B” 却 获得 了 成 功 ， 这 充分 证 明了 编译 器 
设计 者 的 这 条 金 科 玉 律 。 


Bi 语言 通过 省 略 一 些 特性 (如 组 套 过 程 和 一 些 循环 结构 ) 对 BCPL 语 言 作 了 简 
化 ， 并 发 扬 了 “引用 数组 元 素 相当 于 对 指针 加 上 偏 移 量 的 引用 ”这 个 想法 。B 语 言 
同时 保持 了 BCPL 语 言 无 类 型 的 特点 ， 它 仅 有 的 操作 数 就 是 机 器 的 字 。Thomposon 
发 明了 ++ 和 -- 操 作 符 ， 并 把 它 加 入 到 PDP-7 的 B 编 译 器 中 。 它 们 在 C 语 言 中 依然 存 
在 ， 很 多 人 天 真 地 以 为 这 是 由 于 PDP-11 存 在 对 应 的 自动 增 / 减 地 址 模型 。 这 种 想法 
是 错误 的 ! 自动 增 / 减 机 制 的 出 现 早 于 PDP-11 硬 件 系统 的 出 现 。 尽 管 在 C 语 言 中 ， 


拷贝 字符 串 中 的 一 个 字符 的 语句 : 


*p++ = *S++; 


可 以 极其 有 效 地 被 编译 为 PDP-11 代 码 : 


moveb (re)+, (r1)+ 


这 使 得 许多 人 错误 地 以 为 前 者 的 语句 形式 是 根据 后 者 特意 设计 的 。 


当 1970 年 开发 平台 转移 到 PDP-11 以 后 ， 无 类 型 语言 很 快 就 显得 不 合 时 宜 了 。 
这 种 处 理 器 以 硬件 支持 几 种 不 同 长 度 的 数据 类 型 为 特色 ， 而 B 语 言 无 法 表达 不 同 
的 数据 类 型 。 效 率 也 是 一 个 问题 ， 这 也 迫使 Thompson 在 PDP-11 上 重新 用 汇编 语言 
实现 了 UNIX。Dennis Ritchie 利 用 PDP-11 的 强大 性 能 ， 创 立 了 能 够 同时 解决 多 种 
数据 类 型 和 效率 的 “New B”( 这 个 名 字 很 快 变 成 了 “C”) 语言 ， 它 采用 了 编译 模式 
而 不 是 解释 模式 ， 引 入 了 类 型 系统 ， 并 且 每 个 变量 在 使 用 前 必须 先 声 明 。 


1.2 C 语 言 的 早期 体验 


增加 类 型 系统 的 主要 目的 是 帮助 编译 器 设计 者 区 分 新 型 PDP-11 机 器 所 拥有 的 
不 同 数据 类 型 ， 如 单 精度 浮 点 数 、 双 精度 浮 点 数 和 字符 等 。 这 与 其 他 一 些 语言 
(如 Pascal〉 形 成 了 鲜明 的 对 比 。 在 Pascal 中 ， 类 型 系统 的 目的 是 保护 程序 员 ， 访 
止 他 们 在 数据 上 进行 无 效 的 操作 。 由 于 设计 哲学 不 同 ，C 语 言 排斥 强 类 型 ， 它 多 
许 程 序 员 在 需要 时 可 以 在 不 同类 型 的 对 象 间 赋 值 。 类 型 系统 的 加 入 可 以 说 是 事后 
诸葛 ， 从 未 在 可 用 性 方面 进行 过 认真 的 评估 和 严格 的 测试 。 时 至 今日 ， 许 多 C 程 
序 员 仍 然 认 为 * 强 类 型 > 只 不 过 是 增加 了 逆 击 键盘 的 无 用 功 。 


除了 类 型 系统 之 外 ，C 语 言 的 许多 其 他 特性 是 为 了 方便 编译 器 设计 者 而 建立 
的 《为 什么 不 呢 ? 开始 几 年 C 语 言 的 主要 客户 就 是 那些 编译 器 设计 者 ) 。 根 据 编 
译 器 设计 者 的 思路 而 发 展 形成 的 语言 特性 如 下 所 示 。 


。 数组 下 标 从 0 而 不 是 1 开始 。 绝 大 多 数 人 习惯 从 1 而 不 是 0 开始 计数 。 编 译 器 设 
计 者 则 选择 从 0 开始 ， 因 为 偏 移 量 的 概念 在 他 们 心中 己 是 根深 带 固 。 但 这 种 设 
计 让 一 般 人 感觉 很 别扭 。 尽 管 我 们 定义 了 一 个 数组 a[100]， 但 和 干 万 别 往 a[100] 
里 存储 数据 ， 因 为 这 个 数组 的 合法 范围 是 从 a[0] 到 a[99]。 

C 语 言 的 基本 数据 类 型 直接 与 底层 硬件 相对 应 。 例 如 ， 不 像 Fortran，C 语 言 
中 不 存在 内 置 的 复数 类 型 。 某 种 语言 要 素 如 果 没 有 得 到 底层 硬件 的 直接 文 
持 ， 那 么 编译 器 设计 者 就 不 会 在 它 上 面 浪费 任何 精力 。C 语 言 一 开始 并 不 文 
持 序 点 类 型 ， 直 到 硬件 系统 能 够 直接 文 持 浮 点 数 之 后 才 增 加 了 对 它 的 文 持 。 
auto 关 键 字 显然 是 摆设 。 这 个 关键 字 只 对 创建 符号 表 入 口 的 编译 器 设计 者 有 
意义 。 它 的 意思 是 “在 进入 程序 块 时 自动 进行 内 存 分 配 ”( 与 全 局 静态 分 配 或 
在 堆 上 动态 分 配 相 反 ) 。 其 他 程序 员 不 必 操 心 auto 关 键 字 ， 它 是 缺 省 的 变量 
内 存 分 配 模 式 。 

表达 式 中 的 数组 名 可 以 看 作 是 指针 。 把 数组 当 作 指针 简化 了 很 多 东西 。 我 们 
不 再 需要 一 种 复杂 的 机 制 区 分 它们 ， 把 它们 传递 到 一 个 函数 时 不 必 和 忍受 必须 
复制 所 有 数组 内 容 的 低 效 率 。 不 过 ， 数 组 和 指针 并 不 是 在 任何 情况 下 都 是 等 
效 的 ， 更 详细 的 讨论 参见 第 4 章 。 


。float 被 自动 扩展 为 double。 尺 管 在 ANSI C 中 情况 不 再 如 此 ， 但 最 初 浮 点 数 常 
量 的 精度 都 是 double 型 的 ， 所 有 表达 式 中 的 float 变 量 总 被 自动 转换 成 double。 
这 样 做 的 理由 从 未 公 诸 于 众 ， 但 它 与 PDP-11 中 浮 点 数 的 硬件 表示 方式 有 关 。 
首先 ， 在 PDP-11 或 VAX 中 ， 从 float 转 换 到 double 的 代价 非常 小 ， 只 要 在 后 面 
增加 一 个 每 个 位 均 为 0 的 字 即 可 。 如 果 要 转换 回来 ， 去 掉 第 二 个 字 就 可 以 了 。 
其 次 ， 要 知道 在 某 些 PDP-11 的 浮 点 数 硬 件 表示 形式 中 有 一 个 运算 模式 位 
(mode bit) ， 你 既 可 以 只 进行 oat 的 运算 ， 也 可 以 只 进行 double 的 运算 ， 但 
如 果 想 在 这 两 种 方式 间 进 行 切换 ， 就 必须 修改 这 个 位 来 改变 运算 模式 。 在 早 
期 的 UNIX 程 序 中 ，float 用 得 不 是 太 多 ， 所 以 把 运算 模式 固定 为 double 是 比较 
方便 的 ， 省 得 编译 器 设计 者 去 跟踪 它 的 变化 。 

不 允许 欣 套 函数 (函数 内 部 包含 男 一 个 函数 的 定义 )。 这 简化 了 编译 器 ， 并 
稍微 提高 了 C 程 序 的 运行 时 组 织 结构 。 具 体 的 机 理 在 第 6 章 中 详细 描述 。 
register 关 键 字 。 这 个 关键 字 能 给 编译 器 设计 者 提供 线索 ， 即 程序 中 的 哪些 变 
量 属 于 热门 (经 常 被 使 用 ) ， 就 可 以 把 它们 存放 到 寄存 器 中 。 这 个 设计 可 以 
说 是 一 个 失误 。 如 果 让 编译 器 在 使 用 各 个 变量 时 自动 处 理 寄 存 器 的 分 配 工 
作 ， 显 然 比 一 经 声明 就 把 这 类 变量 在 生命 期 内 始终 保留 在 寄存 器 里 要 好 。 尽 
管 使 用 register 关 键 字 简化 了 编译 器 ， 但 却 把 包容 丢 给 了 程序 员 。 


为 了 C 编 译 器 设计 者 的 方便 而 建立 的 其 他 语言 特性 还 有 很 多 。 这 本 号 不 是 一 
件 坏事 ， 它 大 大 简化 了 C 语 言 本 喘 ， 而 且 通 过 回避 一 些 复 杂 的 语言 要 素 〈 如 Ada 中 
的 泛 型 和 任务 ，PL/I 中 的 字符 串 处 理 ，C++ 中 的 模板 和 多 重 继 承 ) ，C 语 言 更 容易 
学 习 和 实现 ， 而 且 效率 非常 高 。 


和 其 他 大 多 数 语 言 不 同 ，C 语 言 有 一 个 漫长 的 进化 过 程 。 在 目前 这 个 形式 之 
前 ， 它 经 历 了 许多 中 间 状 态 。 它 历经 多 年 ， 从 一 个 实用 工具 进化 为 一 种 经 过 大 量 
试验 和 测试 的 语言 。 第 一 个 C 编 译 圳 大约 出 现在 1970 年 。 时 光 佳 黄 ， 作 为 它 的 根 
基 的 UNIX 系 统 得 到 了 广泛 使 用 ，C 语 言 也 随 之 苗 壮 成 长 。 它 对 直接 由 硬件 支持 的 
底层 操作 的 强调 ， 春 来 了 极 高 的 效率 和 移植 性 ， 反 过 来 也 帮助 UNIX 获 得 了 巨大 
的 成 功 。 


1.3 ”标准 IO 库 和 C 预 处 理 需 


C 编 译 器 不 曾 实现 的 一 些 功能 必须 通过 其 他 途径 实现 。 在 C 语 言 中 ， 它 们 在 运 
行 时 进行 处 理 ， 既 可 以 出 现在 应 用 程序 代码 中 ， 也 可 以 出 现在 运行 时 函数 库 
(runtime library) 中 。 在 许多 其 他 语言 中 ， 编 译 器 会 植 入 一 些 代 码 ， 隐 式 地 调用 
运行 时 文 持 工具 ， 这 样 程 序 员 就 无 须 操心 它们 了 。 但 在 C 语 言 中 ， 绝 大 多 数 库 函 
数 或 辅助 程序 都 需要 显 式 调用 。 例 如 ， 在 C 语 言 中 《〈 必 要 时 ) ， 程 序 员 必 须 管理 
动态 内 存 的 使 用 ， 创 建 各 种 大 小 的 数组 ， 测 斌 数组 边界 ， 并 自己 进行 范围 检测 。 


与 此 类 似 ，C 语 言 原 先 并 没有 定义 WO， 而 是 由 库 函 数 提供 。 后 来 ， 这 实际 上 
成 了 标准 机 制 。 可 移植 的 /O 由 Mike Lesk 编 写 ， 最 初出 现在 1972 年 左右 ， 可 在 当 
时 存在 的 3 个 平台 上 通用 。 实 践 经 验 表 明 ， 它 的 性 能 低 于 预期 值 。 所 以 ， 人 们 对 
它 又 进行 了 优化 和 裁剪 ， 后 来 成 为 标准 MO 函数 库 。 


C 预 处 理 器 大 约 也 是 在 这 个 时 候 被 加 入 的 ， 倡 议 者 是 Alan Snyder。 它 所 实现 
的 3 个 主要 功能 如 下 。 


。 字符 串 蔡 换 。 形 式 类 似 于 “把 所 有 的 foo 蔡 换 为 baz”， 通 常用 于 为 常量 提供 一 个 
符号 名 。 

。 头 文件 包含 〈 这 是 在 BCPL 中 首创 的 ) 。 一 般 性 的 声明 可 以 被 分 离 到 头 文件 
中 ， 并 且 可 以 被 许多 源 文 件 使 用 。 虽 然 约定 采用 “.h" 作 为 头 文件 的 扩展 名 ， 但 
在 头 文件 和 包含 实现 代码 的 对 象 库 之 间 在 命名 上 却 没有 相应 的 约定 ， 这 多 少 
令 人 不 快 。 

。 通 用 代码 模板 的 扩展 。 与 函数 不 同 ， 宏 (marco) 在 连续 儿 个 调用 中 所 接收 的 
参数 的 类 型 可 以 不 同 ( 宏 的 实际 参数 只 是 按照 原样 输出 )。 这 个 特性 的 加 入 
比 前 两 个 稍 晚 ， 而 且 多 少 显 得 有 些 笨 拙 。 在 宏 的 扩展 中 ， 空 格 会 对 扩展 的 结 
果 造 成 很 大 的 影响 。 


#define a(y) a_expanded(y) 
a(X); 


被 扩展 为 
a_expanded(x); 


而 


#define a (y) a_expanded (y) 
a(xX); 


则 被 扩展 为 


(y) a_expanded (y)(x) 
它们 所 表示 的 意思 风 马 牛 不 相 及 。 你 可 能 会 以 为 在 宏 里 面 使 用 花 括号 就 像 在 


C 语 言 的 其 他 部 分 一 样 ， 能 把 多 条 语句 组 合成 一 条 复合 语句 ， 但 实际 上 并 非 如 
由 


这 里 对 C 语 言 的 预 处 理 器 并 不 做 太 多 的 讨论 。 这 反映 了 这 样 一 个 观点 : 对 于 
宏 这 样 的 预 处 理 器 ， 只 应 该 适量 使 用 ， 所 以 无 须 深入 讨论 。C++ 在 这 方面 引入 了 
一 些 新 的 方法 ， 使 得 预 处 理 器 几乎 无 用 武之 地 。 


BE ,,. 
软件 信条 


C 并 非 Algol 


20 世 纪 70 年 代 后 期 ，Steve Bourne 在 贝尔 实验 室 编 写 UNIX 第 7 版 的 Shell〈 命 
令 解 释 器 ) 时， 决定 采用 C 预 处 理 器 以 使 C 语 言 看 上 去 更 像 Algol-68。 早 年 在 英国 
剑桥 大 学 时 ，Steve 曾 编写 过 一 个 Algol-68 编 译 器 。 他 发 现 如 果 代 码 中 有 显 式 的 “ 结 
束 语句 ”提示 ， 诸 如 if ... fi 或 者 case ..…. esac 等 ， 调 试 起 来 会 更 容易 。Steve 认 为 仅仅 
一 个 中 ”是 不 够 的 ， 因 此 他 建立 了 许多 预 处 理 定义 : 


#define STRING char * 
#define IF if( 
#define THEN ){ 
#define ELSE }else( 
#define FI ;} 
#define WHILE while( 
#define DO ){ 
#define OD ;} 
#define INT int 
#define BEGIN { 
#define END } 


这 样 ， 就 可 以 像 下 面 这 样 编写 代码 : 


INT compare(s1，Ss2) 
STRING s1; 
STRING s2; 
BEGIN 
WHILE *s1++ == *s2 
DO IF *s2++ == 6 
THEN Feturn(6) ; 
FI 
OD 
return(*--s1 - *s2); 


END 


再 看 一 下 相应 的 C 代 码 : 


int compare(s1, s2) 
char *s1, *s2; 


{ 
while(*s1i++ == *s2)f{ 
} 
return (*#*--S1 - *s2); 
} 


Bourne Shell 的 影响 远 远 超出 了 贝尔 实验 室 的 范围 ， 这 也 使 得 这 种 类 似 Algol- 
68 的 C 语 言 变 体 名 声 大 品 。 但 是 ， 有 些 C 程 序 员 对 此 感到 不 满 。 他 们 抱怨 这 种 记 法 
使 别人 难以 维护 代码 。 时 至 今日 ，BSD 4.3 Bourne Shell (保存 于 /bin/sh) 依然 是 
采用 这 种 记 法 写 的 。 


我 有 一 个 特别 的 理由 反对 Bourne Shell: 在 我 的 书桌 上 堆 满 了 针对 它 的 Bug 报 
告 ! 我 把 它们 发 给 Sam， 我 们 都 发 现 了 这 样 的 Bug: 这 个 Shell 不 使 用 malloc， 而 是 


使 用 sbrk 自 行 负责 堆 存 储 的 管理 。 在 维护 这 类 软件 时 ， 每 解决 两 个 问题 通常 又 会 
引入 一 个 新 间 题 。Steve 解 释 说 ， 他 之 所 以 采用 这 种 特制 的 内 存 分 配器 ， 是 为 了 提 
高 字符 串 处 理 的 效率 ， 他 从 来 不 曾 想 到 其 他 人 会 阅读 他 的 代码 。 


Bourne 创 立 的 这 种 C 语 言 变 体 事实 上 促成 了 异想天开 的 国际 C 语 言 混 乱 代 码 大 
赛 (The International Obfuscated C Code Competition) ， 比 赛 要 求 参 赛 的 程序 员 尽 
可 能 地 编写 神秘 而 混乱 的 程序 来 赢得 对 手 〈 关 于 这 个 比赛 ， 以 后 还 有 更 详尽 的 说 
明 ) 。 


宏 最 好 只 用 于 命名 和 常量， 并 为 一 些 适当 的 结构 提供 简捷 的 记 法 。 宏 名 应 该 大 
写 ， 这 样 便 很 容易 与 函数 调用 区 分 开 来 。 和 干 万 不 要 使 用 C 预 处 理 器 来 修改 语言 的 
基础 结构 ， 因 为 这 样 一 来 C 语 言 就 不 再 是 C 语 言 了 。 


1.4 K&RC 


到 了 20 世 纪 70 年 代 中 期 ，C 语 言 已 经 很 接近 目前 这 种 我 们 所 知道 和 喜爱 的 形 
式 了 。 更 多 的 改进 仍然 存在 ， 但 大 部 分 都 只 是 一 些 细节 的 变化 《比如 允许 函数 返 
回 结构 值 〉》 和 一 些 对 基本 类 型 进行 扩展 以 适应 新 硬件 变化 的 改进 (比如 增加 关键 
字 unsigned 和 long) 。1978 年 ，Steve Johnson 编 写 了 pcc 这 个 可 移植 的 C 编 译 器 。 它 
的 源 代码 对 贝尔 实验 室 之 外 开放 ， 并 被 广泛 移植 ， 形 成 了 整整 一 代 C 编 译 器 的 基 
础 。C 语 言 的 演化 之 路 如 图 1-2 所 示 。 
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一 个 非 比 寻 常 的 Bug 


C 语 言 从 Algol-68 中 继承 了 一 个 特性 ， 就 是 复合 赋值 符 。 它 允许 对 一 个 重复 出 
现 的 操作 数 只 写 一 次 而 不 是 两 次 ， 并 给 代码 生成 器 一 个 提示 ， 即 操作 数 寻 址 也 可 
以 这 么 紧凑 。 这 方面 的 一 个 例子 是 用 b+=3 作 为 b=b+3 的 缩写 。 复 合 赋值 符 最 初 的 
写法 是 先 写 赋 值 符 ， 再 写 操 作 符 ， 就 像 b=+3。 在 B 语 言 的 词法 分 析 器 里 有 一 个 技 
巧 ， 使 实现 =op 这 种 形式 要 比 实现 目前 所 使 用 的 op= 形 式 更 简单 一 些 。 但 这 种 形式 


会 引起 混 消 ， 它 很 容易 把 


b=-3;  /* 从 b 中 减 去 3 */ 


和 


b= -3; /* 把 -3 赋 给 b */ 


Er VV 关 
摘 混 消 。 


因此 ， 这 个 特性 被 修改 为 目前 所 使 用 的 这 种 形式 。 作 为 修改 的 一 部 分 ， 代 码 
格式 器 程序 indent 也 作 了 相应 修改 ， 用 于 确定 复合 赋值 符 的 过 时 形式 ， 并 交换 两 
者 的 位 置 ， 把 它 转换 为 对 应 的 标准 形式 。 这 是 个 非常 糟糕 的 决定 ， 任 何 格式 器 都 
不 应 该 修改 程序 中 除 空白 之 外 的 任何 东西 。 令 人 不 快 的 是 ， 这 种 做 法 会 引入 一 个 
Bug， 就 是 几乎 任何 东西 〈 只 要 不 是 变量 ) ， 如 果 它 出 现在 赋值 符 后 面 ， 就 会 与 
赋值 符 区 换 位 置 。 


如 果 你 运气 好 ， 这 个 Bug 可 能 会 引起 语法 错误 ， 如 : 
epsilon=.6661; 
会 被 交换 成 


epsilon.=6661; 
这 条 语句 将 无 法 通过 编译 器 ， 你 马上 就 能 发 现 错误 。 但 一 条 源 语句 也 可 能 是 
这 样 的 : 


[valve=!open; /*valve 被 设置 为 open 的 逻辑 反 */ 


会 悄 无 声 足 地 交换 成 


valve!l=open; /*valve 与 open 进 行 不 相等 比较 */ 


这 条 语句 同样 能 够 通过 编译 ， 但 它 的 作用 与 源 语句 明显 不 同 ， 它 并 不 改变 
valve 的 值 。 


在 后 面 这 种 情况 下 ， 这 个 Bug 会 潜伏 下 来 ， 并 不 会 被 马上 检测 到 。 在 赋值 后 
面 加 个 空格 是 很 自然 的 事 ， 所 以 随 着 复合 赋值 符 的 过 时 形式 越 来 越 罕见 ， 人 们 也 
逐渐 忘记 了 indent 程 序 曾 经 被 用 于 “改进 ”这 种 过 时 的 形式 。 这 个 由 indent 程 序 引 起 
的 Bug 直 到 20 世 纪 80 年 代 中 期 才 在 各 种 C 编 译 器 中 销声匿迹 。 这 是 一 个 应 被 坚决 
握 弃 的 东西 ! 


1978 年 ，C 语 言 经 典 名 著 The C Programming Language 出 版 了 。 这 本 书 受到 了 
广泛 的 赞誉 ， 其 作者 Brian Kernighan 和 Dennis Ritchie 也 因此 名 声 大 噪 ， 所 以 这 个 
版 本 的 C 语 言 就 被 称 为 "K&R C”。 出 版 商 最 初 估计 这 本 书 将 售 出 1000 册 左右 。 截 
至 1994 年 ， 这 本 书 大 约 售 出 了 150 万 册 。C 语 言 成 为 最 近 20 年 最 成 功 的 编程 语言 
一 〈 见 图 1-3) ， 可 能 就 是 最 成 功 的 。 但 随 着 C 语 言 的 广泛 流行 ， 许 多 人 试图 从 C 
语言 中 产生 其 他 变 体 。 

Amdahl 
Burroushs 


文 持 C 语 言 的 使 件 系统 从 A 到 Z 都 存在 


Cray 


Zilog 


图 1-3”C 语 言 无 处 不 在 


1.5 今日 之 ANSIC 


到 了 20 世 纪 80 年 代 初 ，C 语 言 被 业界 广泛 使 用 ， 但 存在 许多 不 同 的 实现 和 差 
别 。C 语 言 在 PC 上 的 实现 让 人 们 发 现 了 C 语 言 优 于 BASIC 的 诸多 长 处 ， 这 一 发 现 
更 是 掀起 了 C 语 言 的 高 潮 。Mirosoft 为 IBM PC 制作 了 一 个 C 编 译 器 ， 引 入 了 几 个 新 
的 关键 字 〈far、near 等 ) 帮助 指针 处 理 Intel 80x86 芯 片 不 规则 的 架构 。 随 着 其 他 更 
多 并 非 基于 pcc 的 编译 器 的 兴起 ，C 语 言 受 到 了 “重复 BASIC 老 路 ”的 威胁 ， 也 就 是 
可 能 变 成 一 种 多 个 变 体 松散 相关 的 语言 。 


形势 渐渐 明了 ， 一 个 正式 的 语言 标准 是 必需 的 。 幸 运 的 是 ， 在 这 个 领域 已 经 
有 了 相当 多 的 先行 者 一 一 所 有 成 功 的 编程 语言 最 终 都 作 了 标准 化 。 然 而 ， 编 写 标 
准 手册 所 存在 的 问题 是 ， 只 有 当 你 明白 它们 讲 的 是 什么 时 ， 才 是 可 行 的 。 如 果 人 
们 用 日 常 语言 来 编写 它们 ， 则 越 想 把 它们 写 得 精确 ， 就 越 可 能 使 它们 变 得 元 长 、 
乏味 且 星 深 。 如 果 用 数学 概念 来 定义 语言 ， 那 么 标准 手册 对 于 大 多 数 人 而 言 不 尝 
本 大 刷 。 


多 年 以 来 ， 用 于 定义 编程 语言 标准 的 手册 变 得 越 来 越 长 ， 但 也 越 来 越 容易 理 
解 。Algol-60 就 语言 复杂 性 而 言 ， 与 C 语 言 不 相 上 下 ， 但 它 的 标准 手册 一 一 Algol- 
只 有 18 页 。Pascal 用 了 35 页 来 描述 。Kernighan 和 Ritchie 
最 初 所 作 的 C 语 言 报告 用 了 40 页 ， 尽 管 漏 掉 了 一 些 东西 ， 但 对 于 许多 编译 器 设计 
者 而 言 ， 这 些 已 经 足够 了 。 定 义 ANSI C 的 手册 超过 了 200 页 。 它 对 C 语 言 的 实际 应 
用 作 了 部 分 指 述 ， 是 对 标准 文档 中 星 涩 文字 的 补充 和 说 明 。 


60 Reference Definition 


1983 年 ， 美 国 国家 标准 化 组 织 (ANSI) 成 立 了 C 语 言 工作 小 组 ， 开 始 了 C 语 
言 的 标准 化 工作 。 小 组 所 处 理 的 主要 事务 是 确认 C 语 言 的 常用 特性 ， 但 对 语言 本 
身 也 作 了 一 些 修改 ， 并 引入 了 一 些 有 意义 的 新 特性 。 对 于 是 否 要 接受 near 和 far 关 
键 字 ， 小 组 内 部 进行 了 旷日持久 的 争论 。 最 终 ， 它 们 还 是 没有 被 纳入 以 UNIX 为 
中 心 的 相对 谨慎 的 ANSI C 标 准 。 尽 管 当时 世界 上 大 约 有 5000 万 台 PC， 而 且 它 是 


当时 应 用 范围 最 广 的 C 语 言 实现 平台 ， 但 标准 仍然 认为 不 应 该 通过 修改 语言 来 处 
理 某 个 特定 平台 所 存在 的 限制 《我 们 认为 这 是 对 的 ) 。 


小 局 发 
该 用 哪个 版 本 的 C 语 言 呢 ? 


就 此 而 论 ， 任 何 学 习 或 使 用 C 语 言 的 人 都 应 当 使 用 ANSIC， 而 不 是 K&R C。 


1989 年 12 月 ，C 语 言 标准 草案 最 终 被 ANSI 委 员 会 接纳 。 随 后 ， 国 际 标准 化 组 
织 (ISO) 也 接纳 了 ANSI C 标 准 《〈 令 人 不 快 的 是 ， 它 删除 了 非常 有 用 
的 “Rationale” 一 节 ， 并 作 了 个 虽然 很 小 却 让 人 很 恼火 的 修改 ， 就 是 把 文档 的 格式 
和 段落 编码 作 了 改动 ) 。ISO 是 一 个 国际 性 组 织 ， 从 技术 上 讲 它 更 权威 一 些 。 所 
以 在 1990 年 年 初 ，ANSI 重 新 采纳 了 ISO C 同样 删除 了 Rationale)， 取 代 了 原先 的 
版 本 。 因 此 从 原则 上 说 ，ANSI 所 采纳 的 C 语 言 标 准 是 ISO C， 我 们 日 常 所 说 的 标 
准 C 也 应 该 是 ISO C。Rationale 这 一 节 是 非常 有 用 的 ， 能 极 大 地 帮助 人 们 理解 标 
准 ， 它 后 来 作为 独立 的 文档 出 版 。 


小 启发 


哪里 能 得 到 C 语 言 标准 的 一 份 副 本 


C 语 言 标准 的 官方 名 称 是 ISO/IEC 9899:1990。ISO/IEC 是 指 国际 标准 化 组 织 和 
国际 电工 委员 会 。 标 准 组 织 将 C 语 言 标 准 的 价格 定 为 130 美 元 。 在 美国 ， 你 可 以 通 
过 给 下 面 的 地 址 写 信 来 获取 一 份 标准 的 副本 : 


American National Standards Institute 
11 West 42nd Street 
New York, NY 10036 


Tel.(212)642-4900 


在 美国 以 外 的 地 区 ， 可 以 向 下 面 的 地 址 写 信 求 购 《〈 要 指明 自己 想 要 的 是 英语 
版 本 ) : 


ISO Sales 

Case postale 56 
CH-1211 Geneve 20 
Switzerland 


另 一 个 办 法 是 购买 Herbert Schildt 所 著 的 The Annotated ANST C Standard。 这 本 
书包 含 一 个 版 面 压缩 但 内 容 完整 的 C 语 言 标准 。Herbert Schildt 的 书 有 两 个 优势 : 
首先 是 价格 ，39.95 美 元 的 定价 不 到 标准 定价 的 VW3， 其 次 ， 不 像 ANSI 或 ISO， 它 
可 能 在 你 当地 的 书店 里 就 有 售 ， 你 可 以 通过 电话 订购 和 信用 卡 文 付 。 


实际 上 ， 在 ISO 成 立 第 14 工 作 小 组 (WG14) 制定 C 标 准 之 前 ，“ANSI C” 这 个 


称呼 就 已 被 广泛 使 用 。 这 并 没有 什么 不 妥 ， 因 为 ISO 工作 小 组 把 最 初 标准 的 技术 

性 完善 工作 留 给 了 ANSI X3J11 委 员 会 。 在 工作 接近 尾声 时 ，ISO WG14 和 X3J11 一 
起 通力 协作 ， 敲 定 技术 细节 并 确保 最 终 的 标准 能 被 两 个 组 织 共 同 接受 。 事 实 上 ， 

标准 的 最 终 形 成 又 推迟 了 一 年 ， 主 要 是 为 了 修改 标准 草案 以 覆盖 一 些 国际 化 的 问 
题 〈 如 宽 字符 和 国际 区 域 问题 〉。 


这 就 使 得 儿 年 来 一 直 关 心 C 语 言 标准 的 所 有 人 将 新 的 标准 当成 是 ANSI C 标 
准 。 当 语言 标准 最 终 形成 后 ， 所 有 人 都 想 支 持 C 语 言 标准 。ANSI C 同 时 是 一 个 欧 
洲 标准 (CEN 29899) 和 X/Open 标 准 。ANSI C 被 采纳 为 Federal Information 
Processing Standard〈 联 邦 信息 处 理 标准 ) ， 取 名 为 FIPS160， 由 美国 国家 标准 和 
技术 局 于 1991 年 3 月 发 布 ， 并 于 1992 年 8 月 24 日 更 新 。 针 对 C 语 言 的 工作 仍 在 继续 
一 一 据说 有 可 能 在 C 语 言 中 增加 复数 类 型 。 


1.6 它 很 棒 ， 但 它 符合 标准 吗 


不 要 添乱 一 一 立即 解散 ISO 工作 小 组 。 


一 一 匿名 人 士 


ANSI C 标 准 可 以 说 是 非常 独特 的 ， 我 们 可 以 从 好 几 个 有 趣 的 方面 来 说 明 这 一 
点 。 它 定义 了 下 面 一 些 术 语 ， 用 于 描述 某 种 编译 器 的 特点 。 如 果 你 对 这 些 术 语 有 
一 个 比较 好 的 了 解 ， 就 能 理解 什么 东西 能 被 语言 接受 ， 什 么 东西 不 能 被 语言 接 
受 。 前 两 个 术语 涉及 不 可 移植 的 代码 (unportable code) ， 接 下 来 的 两 个 术语 跟 坏 
代码 (bad code) 有 关 ， 而 最 后 两 个 术语 则 跟 可 移植 的 代码 (portable code) 有 
2 


不 可 移植 的 代码 

由 编译 器 定义 的 〈implementation-defined) : 由 编译 器 设计 者 决定 采取 何 种 
行动 〈 就 是 说 ， 在 不 同 的 编译 器 中 所 采取 的 行为 可 能 并 不 相同 ， 但 它们 都 是 正确 
的 ) ， 并 做 好 文档 记录 。 


例如 ， 当 整 型 数 向 右 移 位 时 ， 要 不 要 扩展 符号 位 。 


未 确定 的 〈unspecified) : 在 某 些 正确 情况 下 的 做 法 ， 标 准 并 未 明确 规定 应 
该 怎样 做 。 


例如 ， 参 数 求 值 的 顺序 。 
坏 代码 


未 定义 的 “undefined)〉 : 在 某 些 不 正确 情况 下 的 做 法 ， 但 标准 并 未 规定 应 该 
怎样 做 。 你 既 可 以 采取 任何 行动 ， 也 可 以 什么 也 不 做 ， 还 可 以 发 出 一 条 警告 信 
上 息 ， 或 者 可 以 终止 程序 以 及 让 CPU 陷入 次 痪 ， 甚 至 可 以 发 射 核 导 弹 〈 只 要 你 安装 


了 能 发 射 核弹 的 硬件 系统 ) 。 


例如 ， 当 一 个 有 符号 整数 溢出 时 该 采取 什么 行动 。 


约束 条 件 (a constraint) : 这 是 一 个 必须 遵守 的 限制 或 要 求 。 如 果 不 遵 守 ， 
那么 你 的 程序 的 行为 就 会 变 成 上 面 所 说 的 属于 “未 定义 的 ”。 这 就 出 现 了 一 种 很 有 
意思 的 情况 : 分 辨 某 种 东西 是 否 是 一 个 约束 条 件 是 很 容易 的 ， 因 为 标准 的 每 个 主 
题 都 附 有 一 个 “约束 ”(constraint) 小 节 ， 列 出 了 所 有 的 约束 条 件 。 现 在 又 出 现 了 
一 个 更 为 有 趣 的 情况 : 标准 规定 编译 器 只 有 在 违反 语法 规则 和 约束 条 件 的 情况 
下 才能 产生 错误 信息 ! 这 意味 着 所 有 不 属于 约束 条 件 的 语义 规则 都 可 以 不 遵循 ， 
而 且 由 于 这 种 行为 属于 未 定义 行为 ， 编 译 器 可 以 采取 任何 行动 ， 甚 至 不 必 通 知 


你 ! 


例如 ，% 操 作 符 的 操作 数 必须 属于 整 型 。 所 以 ， 在 非 整 数 数据 上 使 用 % 操 作 


符 肯 定 会 引发 一 条 错误 信息 。 


不 属于 约束 条 件 规则 的 例子 : 所 有 在 C 语 言 标准 头 文件 中 声明 的 标识 符 均 保 
留 ， 所 以 不 能 声明 一 个 名 为 mallocO 的 函数 ， 因 为 在 标准 头 文件 里 已 经 有 一 个 函数 
以 此 为 名 。 但 这 个 规定 不 是 约束 条 件 ， 因 此 可 以 违反 它 ， 而 且 编译 器 甚至 可 以 不 


警告 你 ! 关于 “interpositioning” 这 一 小 节 的 更 多 内 容 ， 参 见 第 5 章 。 


区 性 ,,. 
软件 信条 


未 定义 的 行为 在 IBM PC 中 引起 CPU 竣 痪 ! 


未 定义 的 软件 行为 引起 CPU 竣 痪 的 说 法 并 不 像 它 乍 听 上 去 那样 牵强 。 


IBM PC 的 显示 器 以 显示 控制 蕊 片 所 提供 的 水 平 扫描 速率 进行 工作 。 回 扫 变 压 


器 〈flyback transformer， 一 种 产生 高 电压 的 装置 ， 用 于 加 速 电 子 以 点 亮 显示 器 上 
的 痰 光 物 质 〉 需 要 保持 一 个 合理 的 频率 。 


然而 在 软件 中 ， 程 序 员 有 可 能 把 视频 蕊 片 的 扫描 速率 设置 成 零 ， 这 样 就 会 产 
生 一 个 恒定 的 电压 输出 到 回归 变压器 的 输入 端 。 这 就 使 它 起 了 电阻 器 的 作用 ， 只 
是 把 电能 转换 成 热能 ， 而 不 是 传送 到 屏幕 。 这 会 在 数秒 之 内 就 把 显示 器 烧毁 ， 这 
就 是 未 定义 的 软件 行为 会 导致 系统 瘫痪 的 理由 。 


可 移植 的 代码 


严格 遵循 标准 的 (strictly-conforming〉: 一 个 严格 遵循 标准 的 程序 应 该 具有 
如 下 特点 。 
。 只 使 用 已 确定 的 特性 。 


。 不 突破 任何 由 编译 器 实现 的 限制 。 
。 不 产生 任何 依赖 由 编译 器 定义 的 或 未 确定 的 或 未 定义 的 特性 的 输出 。 


这 样 规定 的 主要 目的 就 是 最 大 限度 地 保证 可 移植 性 。 这 样 ， 不 论 在 什么 平台 
上 运行 严格 遵循 标准 的 程序 ， 都 会 产生 相同 的 输出 。 事 实 上 ， 在 所 有 遵循 标准 的 
程序 中 ， 属 于 这 一 类 的 程序 并 不 多 。 例 如 ， 下 面 这 个 程序 就 不 是 严格 遵循 标准 
的 : 


#include <limits.h> 
#include <stdio.h> 
int main() { (void)printf("biggest int is %d", INT_MAX); return 6;} 


/*# 并 不 严格 遵循 标准 ， 其 输出 结果 是 由 编译 器 定义 的 */ 


在 本 书 的 剩余 部 分 ， 我 们 通常 并 不 强求 例子 程序 严格 遵循 标准 。 因 为 如 果 这 
样 做 会 使 文本 看 上 去 比较 乱 ， 而 且 不 利于 理解 所 讨论 的 要 点 。 程 序 的 可 移植 性 是 
非常 重要 的 ， 所 以 在 现实 编码 中 ， 应 该 始终 保证 加 上 必要 的 类 型 转换 、 返 回 值 


遵循 标准 的 〈conforming) : 一 个 遵循 标准 的 程序 可 以 依赖 某 种 编译 器 特有 
的 不 可 移植 的 特性 。 所 以 ， 一 个 程序 有 可 能 在 一 个 特定 的 编译 器 里 是 遵循 标准 
的 ， 但 在 另 一 个 编译 器 里 却 是 不 遵循 标准 的 。 它 可 以 进行 扩展 ， 但 这 些 扩 展 不 能 
修改 严格 遵循 标准 的 程序 的 行为 。 但 是 ， 这 个 规则 并 不 是 一 个 约束 条 件 ， 所 以 对 
于 程序 中 不 遵循 标准 的 地 方 ， 你 不 要 指望 编译 器 会 给 出 一 条 警告 信息 指出 你 违反 
了 规定 ! 


上 面 押 举 的 几 个 程序 实例 都 是 遵循 标准 的 。 


1.7 编译 限制 


事实 上 ，ANSI C 标 准 对 一 个 能 够 成 功 编译 的 程序 的 最 小 长 度 作 了 限制 ， 这 是 
在 标准 的 第 5.2.4.1 节 规定 的 。 绝 大 多 数 语言 都 有 类 似 的 规定 ， 如 一 个 数据 名 称 
(dataname) 最 多 可 以 有 多 少 个 字符 ， 一 个 多 维 数组 的 维 数 最 多 能 够 达到 多 少 。 
但 对 语言 的 某 种 特性 的 最 小 值 作出 规定 ， 如 果 不 是 独 此 一 家 ， 至 少 也 是 非 比 寻常 
的 。 标 准 委员 会 的 成 员 评 论说 ， 这 是 为 了 指导 编译 器 选择 程序 最 小 能 够 接受 的 长 
度 。 


每 一 个 ANSI C 编 译 器 必须 能 够 支持 : 


。 在 函数 定义 中 形 参数 量 的 上 限 至 少 可 以 达到 31 个 ; 

。 在 函数 调用 时 实 参 数量 的 上 限 至 少 可 以 达到 31 个 ; 

。 在 一 条 源 代 码 行 里 至 少 可 以 有 509 个 字符 ; 

。 在 表达 式 中 至 少 可 以 支持 32 层 租 套 的 括号 ; 

。 long int 的 最 大 值 不 得 小 于 2147483647〔( 就 是 说 ，long 型 整数 不 得 低 于 32 
位 大 等 等 。 


进而 ， 一 个 遵循 标准 的 编译 器 必须 能 够 编译 并 执行 一 个 满足 上 面 这 些 限制 的 
程序 。 令 人 惊异 的 是 ， 上 面 这 些 “ 必 须 * 的 限制 实际 上 并 不 是 约束 条 件 ， 所 以 当 编 
译 髓 发 现 违反 上 述 规定 的 情况 时 并 不 一 定 产生 错误 信息 。 


编译 器 限制 通常 是 一 个 “编译 器 质量 ”的 话题 。 在 ANSI C 标 准 中 包含 它们 ， 就 
是 默认 如 果 所 有 的 编译 器 都 设置 一 些 容量 上 的 限制 ， 将 会 更 加 有 利于 代码 的 移 
植 。 当 然 ， 一 个 真正 优秀 的 编译 器 不 应 该 有 预 设 的 限制 ， 而 应 该 只 受 一 些 外 部 因 
素 的 限制 ， 如 可 用 的 内 存 或 硬盘 空间 等 。 这 可 以 通过 使 用 链表 或 在 必要 时 动态 扩 
展 表 的 大 小 (这 个 技巧 将 在 第 10 章 解释 ) 来 实现 。 


1.8 ANSIC 标 准 的 结构 


如 果 我 们 贫 开 话题 ， 快 速 浏 览 一 下 ANSI C 标 准 的 出 处 和 内 容 ， 对 读者 应 该 是 
有 帮助 的 。ANSI C 标 准 分 成 如 下 4 个 主要 的 部 分 。 


第 4 节 : 介绍 ( 共 5 页 ) 。 对 术语 进行 介绍 和 定义 。 


第 5 节 : 环境 〈 共 13 页 ) 。 描 述 了 围绕 和 支持 C 语 言 的 系统 ， 包 括 在 程序 启动 
时 有 发生 什 么 ， 程 序 中 止 时 发 生 什么 ， 以 及 一 些 信号 和 浮 点 数 运算 。 编 译 器 的 最 低 
限制 和 字符 集 信息 也 在 这 一 节 介绍 。 


第 6 节 : C 语 言 ( 共 78 页 ) 。 标 准 的 这 一 节 是 基于 Dennis Ritchie 数 次 出 版 的 经 
典 之 作 The C Reference Manual， 也 包括 了 The C Programming Language 的 附录 A。 
如 果 对 比 标准 和 附录 ， 就 会 发 现 大 多 数 标题 都 是 一 样 的 ， 顺 序 也 相同 。 标 准 中 的 
主题 用 词 生 人 硬 ， 看 上 去 像 表 1-1 那 样 〈 空 白 的 子 段落 被 省 略 )。 


表 1-1 ANSIC 标 准 段 落 形式 一 览 


ss i ANSI C 标 准 中 段落 举例 
一 般 形式 由 
段落 号 主题 6.4 常量 表达 式 
语法 
有 
常量 表达 式 
es 条 件 表达 式 ; 


描述 ， 
语言 特性 的 一 般 描述 


述 
量 表达 式 可 以 在 编译 时 而 不 是 运行 时 计算 ， 因 而 可 以 出 现在 任何 常 
可 以 出 现 的 地 方 


约束 条 件 
这 里 所 列 的 任何 规则 如 
果 被 破坏 ， 编 译 器 应 该 


给 出 一 条 错误 信息 


约束 条 件 


ie 


= 
里 ， 


量 表达 式 不 应 该 包含 赋值 、 增 值 、 减 值 、 


函数 调 


用 和 逗号 操作 符 ， 


en 


之 内 


党 
除非 它们 包含 在 sizeof 的 操作 数 内 。 每 个 常量 表达 式 应 该 计算 成 一 个 
党 该 常量 应 该 在 其 类 型 可 以 表示 的 范 


语义 语义 

该 特性 的 意思 是 什么 ， | 计算 结果 是 一 个 常量 的 常量 表达 式 为 一 些 上 下 文 环境 所 需要 。 如 果 一 
起 什么 作用 个 浮 点 表达 式 在 翻译 环境 中 被 计算 ， 计 算 的 精度 和 .… 

实例 

一 段 展示 语言 特性 的 代 | .……. 

码 


最 初 的 附录 只 有 40 页 ， 但 在 ANSI C 标 准 中 ， 足 足 多 了 一 倍 。 


第 7 节 : C 运 行 库 ( 共 81 页 )。 提 供 了 一 个 遵循 标准 的 编译 器 必须 提供 的 库 函 


数列 表 ， 它 们 是 标准 所 规定 的 辅助 和 实用 函数 ， 用 于 提供 基本 的 或 有 用 的 功能 。 
ANSI C 标 准 第 7 节 所 描述 的 C 运 行 库 是 基于 /usr/group 1984 年 的 标准 ， 去 除了 一 些 
UNIX 特 有 的 部 分 。/usr/group 是 一 个 于 1984 年 成 立 的 UNIX 国 际 用 户 小 组 。1989 
年 ， 它 更 名 为 UniForum， 现 在 是 一 个 非 熏 利 性 行业 协会 ， 其 宗 
作 系 统 。 


旨 是 完善 UNIX 操 


UniForum 从 行为 的 角度 对 UNIX 进 行 了 成 功 的 定义 ， 这 激励 了 许多 有 创造 性 


ANSI C 标 准 同 时 附 有 一 些 很 有 用 的 附录 。 


附录 FF: 


的 想法 ， 包 括 X/Open 的 可 移植 性 指导 方针 《第 4 版 ，XPG/4 出 现 于 1992 年 12 月 ) 、 
IEEE 的 POSIX 1003、System V Interface Definition (系统 5 接口 定义 ) 以 及 ANSIC 
标准 函数 库 。 每 个 人 都 与 ANSI C 工 作 小 组 协作 ， 确 保 他 们 所 有 的 标准 草案 相互 之 
间 保 持 一 致 。 


般 警 告 信 息 。 在 许多 常见 的 情况 下 ， 诊 断 信 息 并 非 是 标准 强制 要 


求 的 ， 但 如 果 有 这 方面 的 信息 ， 肯 定 对 程序 员 有 帮助 作用 。 


附录 G: 可 移植 性 话题 。 有 一 些 关 于 可 移植 性 的 一 般 性 建议 ， 把 过 布 标准 各 
处 的 所 有 这 方面 的 建议 集中 在 一 个 地 方 。 它 包括 未 确定 的 、 未 定义 的 和 由 编译 器 
定义 的 行为 等 方面 的 信息 。 


软件 信条 


标准 设立 后 轻易 不 作 变 动 ， 即 使 是 修改 错误 


并 不 能 因为 标准 是 由 国际 标准 组 织 所 撰写 的 就 认定 它 必然 完整 、 一 致 乃至 正 
确 。IEEE POSIX 1003.1-1998 标 准 ( 它 是 一 个 操作 系统 标准 ， 定 义 类 似 UNIX 的 行 
为 ) 就 存在 一 个 非常 有 趣 的 自 相 矛盾 的 地 方 : 


“[ 一 个 路 径 名 ]..……. 最 多 由 PATH_MAX 个 字 节 所 组 成 ， 包 括 最 后 面 的 \0' 字 
符 ” 一 一 摘自 第 2.3 节 。 


“PATH _MAX 是 一 个 路 径 名 中 最 多 能 出 现 的 字 节 个 数 〈 并 不 是 字符 串 的 长 
度 ; 不 包括 最 后 面 的 \0' 字 符 ” 一 一 摘自 第 2.9.5 节 ) 。 


所 以 ，PATH-MAX 个 字 节 既 包 括 最 后 面 的 \0'， 叉 不 包括 最 后 面 的 \0'! 


看 来 需要 加 以 解释 。 答 案 (IEEE Std 1003.1-1988/INT，1992 版 ， 解 释 编号 : 
15， 第 36 页 ) 认 为 标准 出 现 了 不 一 致 ， 不 过 两 个 结果 可 以 认为 都 是 正确 的 (这 令 
人 感到 很 奇怪 ， 因 为 一 般 的 观点 认为 不 可 能 两 个 都 是 正确 的 ) 。 


之 所 以 出 现 这 个 问题 ， 是 由 于 在 修改 革 案 时 ， 所 有 出 现 这 个 词 的 地 方 并 未 得 
到 全 部 更 新 。 标 准 化 过 程 非常 重视 形式 ， 显 得 僵化 。 如 果 要 更 新 ， 只 有 投票 小 组 


批准 后 才 人 允许 对 问题 进行 修改 。 


这 样 的 错误 也 曾 出 现在 C 标 准 最 早期 的 脚注 里 ， 也 就 是 所 附 的 Rationale 文 
档 。 事 实 上 ，Rationale 现 在 已 不 属于 C 标 准 的 一 部 分 ， 当 标准 的 所 有 权 移 交 到 ISO 
时 ， 它 就 被 删 掉 了 。 


小 启发 
K&R C 和 ANSI C 之 间 的 区 别 


阅读 本 节 内 容 时 ， 我 假定 你 已 经 完全 明白 K&R C， 对 ANSI C 也 已 知道 了 
90%。ANSI CC 和 K&R C 的 区 别 分 成 4 大 类 ， 按 其 重要 性 分 别 列举 如 下 。 


1. 第 一 类 区 别 是 指 一 些 新 的 、 非 常 不 同 并 且 很 重要 的 东西 。 唯 一 属于 这 类 
区 别 的 特性 是 原型 一 一 把 形 参 的 类 型 作为 函数 声明 的 一 部 分 。 原 型 使 得 编译 器 很 
容易 根据 函数 的 定义 来 检查 函数 的 用 法 。 


2. 第 二 类 区 别 是 一 些 新 的 关键 字 。ANSIC 正 式 增加 了 一 些 关 键 字 : enum 代 
表 枚 举 类 型 (最 初出 现 于 pcc 的 后 期 版 本 ) ; const、volatile、signed、void 也 有 各 
自 相 关 的 语义 。 男 外 ， 原 先 可 能 由 于 玖 忽而 加 入 到 C 中 的 关键 字 entry 则 弃 之 不 
用 。 


3. 第 三 类 区 别 被 称 作 “ 安 静 的 改变 ”一 一 原先 的 茶 些 语言 特性 仍然 合法 ， 但 意 
思 有 了 一 些 轻微 的 改变 。 这 方面 的 例子 很 多 ， 但 都 不 是 很 重要 ， 几 乎 可 以 被 忽 
上 略 。 在 你 偶尔 漫步 于 它们 之 上 时 ， 可 能 由 于 不 注意 而 被 其 中 一 个 绊 了 个 超 起 。 例 


如 ， 现 在 的 预 处 理 规 则 定义 得 更 加 严格 ， 有 一 条 新 规则 ， 就 是 相 邻 的 字符 串 字 面 
值 会 被 自动 连接 在 一 起 。 


4. 最 后 一 类 区 别 就 是 除 上 面 3 类 之 外 的 所 有 区 别 ， 包 括 那 些 在 语言 的 标准 化 
过 程 中 长 期 争论 的 东西 。 这 些 区 别 在 现实 中 几乎 不 可 能 碰 到 ， 如 符号 粘贴 
(token-pasting ) 和 三 字母 词 〈trigraph) 。 三 字母 词 就 是 用 3 个 字符 表示 一 个 单独 
的 字符 ， 如 果 该 字符 不 存在 于 某 种 计算 机 的 字符 集中 ， 就 可 以 用 这 3 个 字符 来 表 
示 。 比 如 两 字母 词 (digraph) \t 表 示 “tab”， 而 三 字母 词 ??< 则 表示 “开放 的 花 括 


由 


ANSI C 中 最 重要 的 新 特性 就 是 “原型 ”， 这 种 特性 取 自 C++。 原 型 是 函数 声明 
的 扩展 ， 这 样 不 仅 函 数 名 和 返回 类 型 已 知 ， 而 且 所 有 的 形 参 类 型 也 是 已 知 的 。 这 
就 允许 编译 器 在 参数 的 使 用 和 声明 之 间 检 查 一 致 性 。 把 “原型 * 称 作 是 “ 带 有 所 有 参 
数 的 函数 名 ”是 不 够 充分 的 ， 它 应 该 称 作 “ 函 数 签名 ”(function signiture) ， 或 者 像 
Ada 那 样 称 作 “ 函 数 说 明 ” (function specification ) 。 


| 
软件 信条 


原型 的 形成 


原型 的 目的 是 当 我 们 对 函数 作 前 向 声明 (forward declaration) 时， 在 形 参 类 
型 中 增加 一 些 信 息 《〈 而 不 仅仅 是 函数 名 和 返回 类 型 ) 。 这 样 ， 编 译 器 就 能 够 在 编 
译 时 对 函数 调用 中 的 实 参 和 函数 声明 中 的 形 参 进 行 一 致 性 检查 。 在 K&R C 中 ， 这 
种 检查 被 推迟 到 链接 时 ， 或 者 干脆 不 作 检 查 。 使 用 原型 以 后 ， 原 先 的 


char * strcpy(); 


现在 在 头 文件 中 的 形式 如 下 : 


char * strcpy(char *dst, const char *src); 


可 以 省 略 参 数 名 称 ， 只 保留 参数 类 型 : 


char * strcpy(char *, const char *); 


但 最 好 不 要 省 略 形 参 名 。 尽 管 编译 器 并 不 理 皮 形 参 的 名 称 ， 但 它们 经 常 能 向 
程序 员 传递 一 些 有 用 的 信息 。 类 似 地 ， 函 数 的 定义 也 从 


char * strcpy(dst, src) 
char *dst, *src; 


{ ...} 


E30 


char * strcpy(char *dst，const char *src) /* 注意 没有 分 号 */ 
a 


函数 头 不 再 以 一 个 分 号 结尾 ， 而 是 在 后 面 紧 接 一 个 组 成 函数 体 的 复合 语句 。 


每 次 编写 新 函数 时 都 应 该 使 用 原型 ， 并 确保 它 在 每 次 调用 时 都 可 见 。 不 要 使 
用 K&R C 老 式 的 函数 声明 方法 ， 除 非 需 要 使 用 缺 省 的 类 型 升级 (这 个 话题 将 在 第 
8 章 详细 讨论 ) 


把 同一 种 东西 用 几 个 不 同 的 术语 来 称呼 ， 确 实 有 点 神秘 。 束 好 像 药 品 至 少 有 
3 种 名 称 一 样 : 化 学 名 、 商 品名 和 常用 名 。 


1.9 阅读 ANSI C 标 准 ， 寻 找 乐 趣 和 神 益 


有 时 候 必 须 非 常 专注 地 阅读 ANSI C 标 准 才能 找到 某 个 问题 的 答案 。 一 位 销售 
工程 师 把 下 面 这 段 代 码 作为 测试 例 发 给 Sun 公 司 的 编译 器 小 组 。 


1 foo(const char **p) { } 
2 
ain(int argc, char **argv) 


foo(arvg); 


3m 
4 
5 
6 


} 


如 果 编 译 这 段 代 码 ， 编 译 器 会 发 出 一 条 警告 信息 : 


line 5: warning: argument is incompatible with prototype 


(第 5 行 ， 警告 : 参数 与 原型 不 匹配 。) 


提交 代码 的 工程 师 既 想 知道 为 什么 会 产生 这 条 警告 信息 ， 也 想 知 道 ANSI C 标 
准 的 哪 一 部 分 讲述 了 这 方面 的 内 容 。 他 认为 ， 实 参 char *s 与 形 参 const char *p 应 该 
是 相 容 的 ， 标 准 库 中 所 有 的 字符 串 处 理 函 数 都 是 这 样 的 。 那 么 ， 为 什么 实 参 char 
**argV 与 形 参 const char **p 实 际 上 不 能 相 容 呢 ? 


答案 是 肯定 的 ， 它 们 并 不 相 容 。 ee 个 问题 颇 费 心机 ， 如 果 研 究 一 下 获 
得 这 个 答案 的 整个 过 程 ， 会 比 仅仅 知道 结论 更 有 意义 。 对 这 个 问题 的 分 析 是 由 
Sun 公司 的 其 中 一 位 “语言 4 pe 其 过 程 如 下 。 


在 ANSI C 标 准 第 6.3.2.2 节 讲述 约束 条 件 的 小 节 中 有 这 么 一 句 话 : 


每 个 实 参 都 应 该 具有 自己 的 类 型 ， 这 样 它 的 值 就 可 以 赋值 给 与 它 所 对 应 的 形 
类 型 的 对 象 〈 该 对 象 的 类 型 不 能 含有 限定 符 ) 。 
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这 就 是 说 参数 传递 过 程 类 似 于 赋值 。 


所 以 ， 除 非 一 个 类 型 为 char ** 的 值 可 以 赋值 给 一 个 const char ** 类 型 的 对 象 ， 
否则 肯定 会 产生 一 条 诊断 信息 。 要 想 知 道 这 个 赋值 是 否 合法 ， 就 请 回顾 标准 中 有 
关 简 单 赋值 的 部 分 ， 它 位 于 第 6.3.16.1 节 ， 描 述 了 下 列 约束 条 件 : 


要 使 上 述 的 赋值 形式 合法 ， 必 须 满足 下 列 条 件 之 一 : 


两 个 操作 数 都 是 指向 有 限定 符 或 无 限定 符 的 相 容 类 型 的 指针 ， 左 边 指针 所 指 
向 的 类 型 必须 具有 右边 指针 所 指向 类 型 的 全 部 限定 符 。 


正 是 这 个 条 件 使 得 函数 调用 中 实 参 char * 能 够 与 形 参 const char * 匹 配 〈 在 C 标 
准 库 中 ， 所 有 的 字符 串 处 理 函 数 就 是 这 样 的 ) 。 它 之 所 以 合法 ， 是 因为 在 下 面 的 
代码 中 : 


char *cp; 
const char *ccp; 
CCP = cp; 


。 左 操作 数 是 一 个 指向 有 const 限 定 符 的 char 的 指针 ; 

。 右 操作 数 是 一 个 指 癌 没 有 限定 符 的 char 的 指针 ; 

。 char 类 型 与 char 类 型 是 相 容 的 ， 左 操作 数 所 指向 的 类 型 具有 右 操 作 数 所 指 问 类 
型 的 限定 符 (无 ) ， 再 加 上 自身 的 限定 符 (const)。 


注意 ， 反 过 来 就 不 能 进行 赋值 。 如 果 不 信 ， 试 试 下 面 的 代码 : 


cp = ccp; /* 结果 产生 编译 警告 */ 


标准 第 6.3.16.1 节 有 没有 说 char ** 实 参与 const char ** 形 参 是 相 容 的 ? 没有 。 


标准 第 6.1.2.5 节 中 讲述 实例 的 部 分 声称 : 


const float * 类 型 并 不 是 一 个 有 限定 符 的 类 型 一 一 它 的 类 型 是 “指向 一 个 具有 
const 限 定 符 的 float 类 型 的 指针 ”， 也 就 是 说 const 限 定 符 是 修饰 指针 所 指向 的 类 
型 ， 而 不 是 指针 本 身 。 


类 似 地 ，const char ** 也 是 一 个 没有 限定 符 的 指针 类 型 。 它 的 类 型 是 “指向 有 
const 限 定 符 的 char 类 型 的 指针 的 指针 ”。 


由 于 char ** 和 const char ** 都 是 没有 限定 符 的 指针 类 型 ， 但 它们 所 指向 的 类 型 
不 一 样 〈 前 者 指向 char*， 后 者 指向 const char*) ， 所 以 它们 是 不 相 容 的 。 因 此 ， 
类 型 为 char ** 的 实 参 与 类 型 为 const char ** 的 形 参 是 不 相 容 的 ， 违 反 了 标准 第 
6.3.2.2 节 所 规定 的 约束 条 件 ， 编 译 器 必然 会 产生 一 条 诊断 信息 。 


用 这 种 方式 理解 这 个 要 点 有 一 定 困难 。 可 以 用 下 面 这 个 方法 进行 理解 : 


。 左 操作 数 的 类 型 是 FOO2， 它 是 一 个 指向 FOO 的 指针 ， 而 FOO 是 一 个 没有 限定 
符 的 指针 ， 它 指向 一 个 带 有 const 限 定 符 的 char 类 型 ; 

。 石 操作 数 的 类 型 是 BAZ2， 它 是 一 个 指 癌 BAZ 的 指针 ， 而 BAZ 是 一 个 没有 限定 
符 的 指针 ， 它 指向 一 个 没有 限定 符 的 字符 类 型 。 


FOO 和 BAZ 所 指向 的 类 型 是 相 容 的 ， 而 且 它 们 本 映 都 没有 限定 符 ， 所 以 符合 
标准 的 约束 条 件 ， 两 者 之 间 进 行 赋值 是 合法 的 。 但 FOO2 和 BAZ2 之 间 的 关系 又 有 
不 同 ， 由 于 相 容 性 是 不 能 传递 的 ，FOO 和 BAZ 所 指 癌 的 类 型 相 容 并 不 表示 FOO2 
和 BAZ2 所 指向 的 类 型 也 相 容 ， 所 以 虽然 FOO2 和 BAZ2 都 没有 限定 符 ， 但 它们 之 
间 不 能 进行 赋值 。 也 就 是 说 ， 它 们 都 是 不 带 限 定 符 的 指针 ， 但 它们 所 指 回 的 对 象 
是 不 同 的 ， 所 以 它们 之 间 不 能 进行 赋值 ， 也 就 不 能 分 别 作 为 函数 的 形 参 和 实 参 。 
但 是 ， 这 个 约束 条 件 很 令 人 恼火 ， 也 很 容易 让 用 户 混 淆 。 所 以 ， 这 种 赋值 方法 目 
前 在 基于 Cfront 的 C++ 翻 译 器 中 是 合法 的 (虽然 这 在 将 来 可 能 会 改变 ) 。 


小 启发 


容易 混淆 的 const 


关键 字 const 并 不 能 把 变量 变 成 常量 ! 在 一 个 符号 前 加 上 const 限 定 符 只 是 表示 
这 个 符号 不 能 被 赋值 。 也 就 是 它 的 值 对 于 这 个 符号 来 说 是 只 读 的 ， 但 它 并 不 能 防 
止 通过 程序 的 内 部 《甚至 是 外 部 ) 的 方法 来 修改 这 个 值 。const 最 有 用 之 处 就 是 用 
它 来 限定 函数 的 形 参 ， 这 样 该 函数 将 不 会 修改 实 参 指针 所 指 的 数据 ， 但 其 他 的 函 
数 却 可 能 会 修改 它 。 这 也 许 就 是 C 和 C++ 中 const 最 一 般 的 用 法 。 


const 可 以 用 在 数据 上 ， 如 : 


const int limit = 16; 


这 和 其 他 语言 差不多 ， 但 当 你 在 等 式 两 边 加 上 指针 ， 就 有 一 定 难度 了 : 


const :int * limitp = &limit; 
int i = 27; 
limitp = &i; 


这 上 段 代 码 表 示 ]limitp 是 一 个 指 癌 和 常量 整 型 的 指针 。 这 个 指针 不 能 用 于 修改 这 个 
整 型 数 ， 但 是 在 任何 时 候 ， 这 个 指针 本 身 的 值 却 可 以 改变 。 这 样 ， 它 就 指向 了 不 
同 的 地 址 ， 对 它 进行 解除 引用 〈dereference) 操作 时 会 得 到 一 个 不 同 的 值 ! 


const 和 * 的 组 合 通常 只 用 于 在 数组 形式 的 参数 中 模拟 传 值 调用 。 它 声称 “我 给 
你 一 个 指向 它 的 指针 ， 但 你 不 能 修改 它 ”。 这 个 约定 类 似 于 极为 常见 的 void * 的 用 
法 ， 尽 管 在 理论 上 它 可 以 用 于 任何 情形 ， 但 通常 被 限制 于 把 指针 从 一 种 类 型 转换 


为 男 一 种 类 型 。 


类 似 地 ， 你 可 以 取 一 个 const 变 量 的 地 址 ， 并 且 可 以 .………. 《 唔 ， 我 最 好 不 要 往 
大 家 的 脑袋 里 灌输 这 种 思想 ) 。 正 如 Ken Thompson 所 指出 的 那样 , “const 关 键 字 
可 能 引发 一 些 罕 见 的 错误 ， 只 会 混 靖 函 数 库 的 接口 ?。 回 首 往 事 ，const 关 键 字 原 
先 如 果 命 名 为 readonly 就 好 多 了 。 


确实 ， 整 个 标准 好 像 是 由 一 位 鉴 脚 的 翻译 把 它 从 马尔 都 语 转 译 成 丹麦 语 ， 表 
转译 成 英语 而 来 。 标 准 委员 会 似乎 自我 感觉 良好， 所 以 虽然 人 们 和 希望 语言 的 规则 
更 简单 一 些 ， 更 清楚 一 些 ， 但 他 们 觉得 这 样 做 会 破坏 他 们 的 民 好 感觉 ， 所 以 拒 不 
采纳 。 


我 感觉 ， 将 来 还 会 有 许多 人 产生 类 似 的 疑问 ， 而 且 他 们 中 的 每 一 个 人 并 不 会 
都 仔细 撕 摩 前 面 详 述 的 推理 过 程 。 所 以 ， 我 们 修改 了 Sun 的 ANSI C 编 译 器 ， 当 它 
发 现 不 相 容 的 情况 时 ， 会 打印 出 更 多 的 警告 信息 。 原 先 那 个 例子 将 会 产生 的 完整 
信息 如 下 : 


Line 6: warning : argument #1 is imcompatible with prototype: 
prototype: pointer to pointer to const char: "barf.c", line 1 
argument: pointer to pointer to char 


(第 6 行 : 警告 ,#1 实 参与 原型 不 相 容 : 
原型 :指向 const char 的 指针 的 指针 。"barf.c"， 第 1 行 
实 参 : 指向 char 的 指针 的 指针 。) 


即使 程序 员 不 明白 为 什么 会 这 样 ， 他 至 少 应 该 明白 什么 是 不 相 容 。 


1.10 “安静 的 改变 ?究竟 有 多 少 安静 


标准 所 做 的 修改 并 非 都 如 原型 那样 引 人 注 目 。ANSI C 做 了 其 他 一 些 修 改 ， 目 
的 是 使 C 语 言 更 加 可 靠 。 例 如 ,“ 和 寻常 算 术 转 换 ”(usual arithmetic conversion ) 在 
旧式 的 K&R C 和 ANSIC 中 的 意思 就 有 所 不 同 。Kernighan 和 Ritchie 当 初 是 这 样 写 
的 : 


第 6.6 节 : 算术 转换 


许多 运算 符 都 会 引发 转换 ， 以 类 似 的 方式 产生 结果 类 型 。 这 个 模式 称 为 “寻常 
算术 转换 ”。 


首先 ， 任 何 类 型 为 char 或 short 的 操作 数 被 转换 为 int， 任 何 类 型 为 foat 的 操作 
数 被 转换 为 double。 其 次 ， 如 果 其 中 一 个 操作 数 的 类 型 是 double， 那 么 另 一 个 操作 
数 就 被 转换 成 double， 计 算 结 果 的 类 型 也 是 double。 最 后 ， 如 果 其 中 一 个 操作 数 的 
类 型 是 long， 那 么 另 一 个 操作 数 就 被 转换 成 long， 计 算 结 果 的 类 型 也 是 long。 或 
者 ， 如 果 其 中 一 个 操作 数 的 类 型 是 unsigned， 那 么 另 一 个 操作 数 就 被 转换 成 
unsigned， 计 算 结 果 的 类 型 也 是 unsigned。 如 果 不 符合 上 面 几 种 情况 ， 那 么 两 个 操 
作 数 的 类 型 都 为 int， 计 算 结 果 的 类 型 也 是 int。 


ANSI C 手 册 重 新 编写 了 有关 内容 ， 填 补 了 其 中 的 漏洞 : 


第 6.2.1.1 节 字符 和 整 型 〈 整 型 升级 ) 


char、short int 或 者 int 型 位 段 (bit-field) ， 包 括 它 们 的 有 符号 或 无 符号 变 体 ， 
以 及 枚 举 类 型 ， 可 以 使 用 在 需要 int 或 unsigned int 的 表达 式 中 。 如 果 int 可 以 完整 表 
示 源 类 型 的 所 有 值 回 ， 那 么 该 源 类 型 的 值 就 转换 为 int， 否 则 转换 为 unsigned int。 


这 称 为 整 型 升级 。 


第 6.2.1.5 节 寻常 算术 转换 


许多 操作 数 类 型 为 算术 类 型 的 双 目 运算 符 会 引发 转换 ， 并 以 类 似 的 方式 产生 
结果 类 型 。 它 的 目的 是 产生 一 个 普通 类 型 ， 同 时 也 是 运算 结果 的 类 型 。 这 个 模式 


称 为 “寻常 算术 转换 ”。 


首先 ， 如 果 其 中 一 个 操作 数 的 类 型 是 long double， 那 么 另 一 个 操作 数 也 被 转 
换 为 long double。 其 次 ， 如 果 其 中 一 个 操作 数 的 类 型 是 double， 那 么 另 一 个 操作 
数 也 被 转换 为 double。 最 后 ， 如 果 其 中 一 个 操作 数 的 类 型 是 float， 那 么 另 一 个 操 
作 数 也 被 转换 为 float。 否 则 ， 两 个 操作 数 进 行 整 型 升级 (第 6.2.1.1 节 描述 整 型 升 
级 ) ， 并 执行 下 面 的 规则 。 


如 果 其 中 一 个 操作 数 的 类 型 是 unsigned long int， 那 么 另 一 个 操作 数 也 被 转换 
为 unsigned long int。 其 次 ， 如 果 其 中 一 个 操作 数 的 类 型 是 long int， 而 另 一 个 操作 
数 的 类 型 是 unsigned int， 如 果 long int 能 够 完整 表示 unsigned int 的 所 有 值 [1， 那 么 
unsigned int 类 型 操作 数 被 转换 为 long int;， 如果 long int 不 能 完整 表示 unsigned int 的 
所 有 值 中 ， 那 么 两 个 操作 数 都 被 转换 为 unsigned long int。 再 次 ， 如 果 其 中 一 个 操 
作 数 的 类 型 是 long int， 那 么 另 一 个 操作 数 被 转换 为 long int。 最 后 ， 如 果 其 中 一 个 
操作 数 的 类 型 是 unsigned int， 那 么 另 一 个 操作 数 被 转换 为 unsigned int。 如 果 所 有 
以 上 情况 都 不 属于 ， 那 么 两 个 操作 数 都 为 int。 


浮 点 操作 数 和 浮 点 表达 式 的 值 可 以 用 比 类 型 本 身 所 要 求 的 更 大 的 精度 和 更 广 
的 范围 来 表示 ， 而 它 的 类 型 并 不 因此 改变 。 


采用 通俗 语言 来 说 (当然 存 有 漏 将， 而且 不 够 精确 〉，ANSI C 标 准 所 表示 的 
意思 大 致 如 下 : 


当 执行 算术 运算 时 ， 操 作 数 的 类 型 如 果 不 同 ， 就 会 发 生 转 换 。 数 据 类 型 一 般 
朝 着 浮 点 精度 更 高 、 长 度 更 长 的 方向 转换 。 整 型 数 如 果 转 换 为 signed 不 会 竺 失信 
息 ， 就 转换 为 signed， 否 则 转换 为 unsigned。 


K&R C 采 用 无 符号 保留 unsigned preserving) 原则 ， 就 是 当 一 个 无 符号 类 型 


与 int 或 更 小 的 整 型 混合 使 用 时 ， 结 果 类 型 是 无 符号 类 型 。 这 是 个 简单 的 规则 ， 与 


Atr 


硬件 无 关 。 但 是 ， 正 如 下 面 的 例子 所 展示 的 那样 ， 它 有 时 会 使 一 个 负数 丢失 符号 


二 和 


位 。 


ANSI C 标 准则 采用 值 保 留 (value preserving) 原则 ， 就 是 当 把 几 个 整 型 操作 
数 混合 使 用 时 《如 下 面 的 程序 所 示 ) ， 结 果 类 型 既 有 可 能 是 有 符号 数 ， 也 可 能 是 


无 符号 数 ， 有 具体 取决 于 操作 数 的 类 型 的 相对 大 小 。 


下 面 的 程序 段 分 别 在 ANSIC 和 K&R C 编 译 妖 中 运行 时 ， 将 打印 出 不 同 的 信 


main(){ 
if(-1 < (unsigned char)1 
printf("-1 is less than (unsigned char)1: ANSI semantics "); 
else 
printf("-1 NOT less than (unsigned char)1: K&R semantics"); 


程序 中 的 表达 式 在 两 种 编译 器 下 的 编译 结果 不 同 。-1 的 位 模式 是 一 样 的 ， 但 
一 个 编译 器 (ANSI C) 将 它 解释 为 负数 ， 另 一 个 编译 器 (K&R C) 却 将 它 解 释 为 
无 符号 数 ， 也 就 是 变 成 了 正 数 。 


BE ,,. 
软件 信条 


一 个 微妙 的 Bug 


虽然 规则 做 了 修改 ， 但 微妙 的 Bug 依 然 存 在 。 在 下 面 这 个 例子 里 ， 变 量 d 比 程 
序 所 需 的 下 标 值 小 1， 这 段 代 码 的 目的 就 是 处 理 这 种 情况 。 但 和 表达 式 的 值 却 不 是 
真 。 为 什么 ?是 不 是 有 Bug: 


int array[] = { 23, 34, 12, 17, 2864, 99, 16 }; 


#define TOTAL_ELEMENTS (sizeof(array)/sizeof(array[6])) 


if(d <= TOTAL_ELEMENTS - 2) 
x = array[d+1]; 


A/ Se */ 


TOTAL_ELEMENTS 所 定义 的 值 是 unsigned int 类 型 〈 因 为 sizeofO 的 返回 类 型 
是 无 符号 数 ) 。 让 语句 在 signed int 和 unsigned int 之 间 测 试 相等 性 ， 所 以 d 被 升级 为 
unsigned int 类 型 ，-1 转 换 成 unsigned int 的 结果 将 是 一 个 非常 巨大 的 正 整数 ， 导 致 
表达 式 的 值 为 假 。 这 个 Bug 在 ANSI C 中 存在 ， 而 如 果 K&R C 的 某 种 编译 器 的 
sizeof() 的 返回 值 是 无 符号 数 ， 那 么 这 个 Bug 也 存在 。 要 修正 这 个 问题 ， 只 要 对 
TOTAL_ELEMENTS 进 行 强 制 类 型 转换 即 可 : 


if(d <= (int)TOTAL ELEMENTS - 2) 


小 启发 
对 无 符号 类 型 的 建议 


尽量 不 要 在 代码 中 使 用 无 符号 类 型 ， 以 免 增 加 不 必要 的 复杂 性 。 尤 其 是 不 要 
仅仅 因为 无 符号 数 不 存 在 负 值 〈 如 年 龄 、 国 债 ) 就 用 它 来 表示 数量 。 


尽量 使 用 像 it 那样 的 有 符号 类 型 ， 这 样 在 涉及 升级 混合 类 型 的 复杂 细节 时 ， 
不 必 担 心 边界 情况 (如 -1 被 翻译 为 非常 大 的 正 数 )。 


只 有 在 使 用 位 段 和 二 进 制 掩 码 时 ， 才 可 以 用 无 符号 数 。 应 该 在 表达 式 中 使 用 
强制 类 型 转换 ， 使 操作 数 均 为 有 符号 数 或 者 无 符号 数 ， 这 样 就 不 必 由 编 译 器 来 选 


择 结果 的 类 型 。 


这 上 听 起 来 是 不 是 有 点 诡异 ， 是 不 是 令 人 吃惊? 确实 如 此 ! 用 前 文 所 说 的 规则 
完成 上 面 这 个 例子 。 


最 后 ， 为 了 不 让 The Elements of Programming Stylel8 未 来 的 版 本 把 这 段 代 码 作 
为 不 良 风 格 的 实例 ， 我 最 好 解释 一 下 其 中 的 一 些 代码 。 我 使 用 了 下 面 这 条 语句 : 


#define TOTAL _ ELEMENTS (sizeof(array) / sizeof(array[6])) 
而 不 是 : 


#define TOTAL_ELEMENTS (sizeof(array) / sizeof(int)) 


因为 前 者 可 以 在 不 修改 #efine 语 句 的 情况 下 改变 数组 的 基本 类 型 〈 比 如 ， 把 
int 变 成 char) 。 


Sun 公 司 的 ANSI C 编 译 器 小 组 认为 从 “无 符号 保留 ” 转 到 “ 值 保 留 ? 对 于 C 语 言 的 
语义 而 言 完 全 没有 必要 ， 只 会 让 偶尔 遇 到 这 方面 问题 的 人 感到 吃惊 和 泪 丧 。 
此 ， 在 “尽量 不 让 人 误会 ”的 原则 下 ，Sun 编 译 器 认可 并 编译 ANSI C 的 特性 ， 除 非 
该 特性 在 K&R C 里 另 有 解释 。 如 果 倍 到 后 面 这 种 情况 ， 编 译 器 在 缺 省 情况 下 使 用 
K&R C 的 标准 ， 并 给 出 一 条 警告 信息 。 如 果 碰 到 上 面 这 个 例子 ， 程 序 员 应 该 使 用 
强制 类 型 转换 告诉 编译 器 最 终 所 希望 的 类 型 。 在 Sun 公 司 运 行 Solaris 2.x 的 工作 站 
上 只 要 打开 编译 器 的 -Xc 开 关 ， 就 可 以 使 编译 器 严格 遵循 ANSI C 标 准 的 语义 。 


在 K&R C 的 许多 特性 中 ， 有 许多 在 ANSI C 中 进行 了 更 新 ， 包 括 许多 所 谓 “ 安 
静 的 转变 ”。 在 这 种 情况 下 ， 代 码 在 两 种 编译 器 里 都 能 通过 编译 ， 但 具体 含义 稍 有 


差别 。 当 程序 员 发 现 这 种 情况 时 ， 他 们 的 反应 可 想 而 知 。 因 此 ， 这 种 转变 事实 上 
应 该 称 作 “ 讨 厌 的 转变 "。 总 体 来 说 ，ANSI 委 员 会 试图 进行 尽 可 能 少 的 改动 ， 与 原 
先 存 在 但 确实 需要 改进 的 特性 保持 一 致 。 


对 于 ANSI C 族 系 背 景 知 识 的 讨论 已 经 够 多 了 。 因 此 ， 在 1.11 节 过 后 ， 让 我 们 
学 习 第 2 章 ， 进 入 本 书 的 中 心 内 容 。 


1.11 轻松 一 下 一 一 由 编译 器 定义 的 Pragmas 效 果 


自由 软件 基金 会 (Free Software Foundation，FSF) 是 一 个 独特 的 组 织 ， 它 由 
MIT 顶 级 黑客 Richard Stallman 所 创立 。 顺 便 提 一 下 ， 我 们 所 说 的 “黑客 ”， 它 的 原 
先 意 思 是 “天 才 程 序 员 ”。 后 来 这 个 称呼 被 媒体 所 贬损 ， 致 使 它 在 局 外 人 眼中 成 
了 “ 政 恶 的 天 才 ” 的 代名词 。 与 形容 词 “bad” 一 样 ,，“ 黑 客 ” 现 在 也 有 两 个 相反 的 意 
思 ， 必 须 通过 上 下 文才 能 明白 它 的 确切 意思 。 


Stallman 成 立 自 由 软件 基金 会 的 初衷 是 : 软件 应 该 是 免费 的 ， 所 有 人 都 可 以 
自由 使 用 。FSF 的 宗旨 是 “消除 在 计算 机 程序 复制 、 重 发 布 、 理 解 和 修改 方面 的 限 
制 ”， 它 想 雄 心 勃 勃 地 建立 一 个 UNIX 的 自由 软件 实现 方案 ， 称 为 GNU《〈 代 表 
GNU’s Not UNIX) 。 


许多 计算 机 科学 专业 的 研究 生 和 其 他 人 赞同 GNU 的 哲学 ， 他 们 设计 软件 产 
品 ， 由 FSF 进 行 打包 并 免费 发 布 。 这 些 甘 心 奉献 的 有 天 赋 的 程序 员 的 辛勤 劳动 ， 
产生 了 一 些 优秀 的 软件 作品 。FSF 最 好 的 作品 之 一 就 是 GNU C 编 译 器 系列 。gcc 是 
一 个 在 代码 优化 方面 具有 创造 性 的 健壮 的 编译 器 ， 可 以 在 很 多 硬件 平台 使 用 ， 有 
时 甚至 比 编译 器 厂商 的 产品 更 为 优秀 。gcc 并 不 适合 所 有 的 项 目 ， 它 在 维护 性 和 未 
来 版 本 连续 性 方面 仍 存在 一 些 问 题 。 在 现实 的 开发 中 ， 除 了 编译 器 之 外 ， 还 需要 
很 多 工具 。 兽 有 很 长 一 段 时 间 ，GNU 的 调试 器 无 法 在 共享 库 中 工作 。 而 且 在 开发 
时 ，GNU C 侦 尔 会 让 人 感到 眼花 综 乱 。 


在 制订 ANSI C 标 准时 ， 引 入 了 pragma 指 示 符 ， 这 个 指示 符 来 源 于 Ada。 
#pragma 用 于 向 编 译 器 提示 一 些 信息 ， 诸 如 希望 把 某 个 特定 函数 扩展 为 内 联 函 
数 ， 或 者 取消 边界 的 检查 。 由 于 它 并 非 C 语 言 所 固有 ，pragma 遭 到 了 一 个 gcc 编 译 
器 设计 者 的 积极 抵制 ， 他 把 这 个 “由 编译 器 定义 的 ”的 效果 做 得 很 搞笑 一 一 在 gcc 
1.34 版 本 中 ， 如 果 使 用 pragma 将 会 导致 编译 器 停止 编译 ， 而 且 运 行 一 个 计算 机 游 
戏 ! 在 gcc 手 册 中 有 如 下 说 明 : 


在 ANSI C 标 准 中 ，“#pragma” 指 令 会 产生 一 个 由 编译 器 定义 的 任意 效果 。 在 
GNU C 预 处 理 器 中 ， 一 旦 遇见 “#pragma” 指 令 ， 它 首先 试图 运行 rogue 游 戏 ， 如果 
失败 ， 尝 试 运行 hack 游 戏 ;， 如 果 还 是 失败 ， 它 会 尝试 运行 GNU Emacs， 显 示 汉 诺 
塔 (Tower of Hanoi) 。 如 果 仍 然 失 败 ， 它 就 报告 一 个 致命 错误 。 总 之 ， 预 处 理 过 
程 不 会 继续 下 去 。 


一 GNU C 编 译 器 1.34 版 手册 


GNU C 编 译 器 中 关于 预 处 理 需 的 部 分 源 代码 如 下 : 


/ * 
* #pragma 指 示 符 的 行为 是 由 编译 器 定义 的 
* 在 GNU 5 编译 器 中 ， 它 的 定义 如 下 : 
* / 

do_pragma() 

{ 


close(0); 
if(open("/dev/tty", O RDONLY, 8666) != 0) 

goto nope; 
close(1); 
if(open("/dev/tty", O WRONLY, 8666) != 1) 

goto nope; 
exel("/usr/games/hack", "#pragma", 0); 
exel("/usr/games/rogue", "#pragma", 0); 
exel("/usr/new/emacs", "-f", "hanoi", "9", "-kill", 8); 
exel("/usr/local/emacs", "-f", "hanoi", "9", "-kill", 0); 


nope: 
fatal("you are in a maze of twisty compiler features, all different"); 


特别 好 笑 的 是 ， 用 户 手册 中 的 描述 是 错误 的 ， 它 把 hack 和 rogue 的 次 序 搞 反 
本 


[1] 学习、 使 用 和 实现 PL/A 的 困难 使 一 位 程序 员 写 了 这 样 一 首 打油诗 : “IBM 有 个 
PL/I[， 语 法 比 JOSS 还 糟糕 ， 到 处 都 见 它 踪 影 ， 实 实在 在 是 垃圾 。JOSS 是 个 老 古 
董 ， 它 可 不 是 因 简 单 而 闻名 。” 


[2] “BCPL: A Tool for Compiler Writing and System Programming”(BCPL， 编 译 


器 编写 和 系统 编程 的 工具 ) ，Martin Richards, Proc. AFIPS Spring Joint Computer 
Conference, 34(1969), pp.557-566。BCPL 并 非 “Before C Programming 

Language”(C 前 身 编程 语言 的 站 字母 缩写 ， 尺 管 这 是 个 有 趣 的 巧合 。 它 的 确切 
意思 是 “Basic Combined Programming Language”( 基 本 组 合 编程 语言 ) 。basic 的 
意思 是 “不 花哨 ”。BCPL 是 由 英国 伦敦 大 学 和 剑桥 大 学 的 研究 人 员 合 作 开发 的 。 
Multics 实 现 了 一 种 BCPL 编 译 器 。 


[3] 如果 你 想 刨 根 问 底 ， 它 位 于 第 5.1.1.3 段 ,“Diagnostics”( 诊 断 ) 。 作 为 一 个 

语言 标准 ， 它 不 会 简单 地 说 “在 一 个 不 正确 的 程序 里 ， 你 必须 为 每 个 错误 准备 一 个 
标志 ”。 作 为 标准 ， 其 用 词 必然 圣 四 骊 六 ， 仿 佛 是 由 靠 玩 乔 文字 吃饭 的 律师 所 撰写 
的 。 它 的 正式 用 词 如 下 :“ 一 个 遵循 标准 的 实现 应 该 -至少 为 每 个 翻译 单元 产生 一 

条 诊断 信息 ， 其 中 包含 了 所 有 违反 语法 规则 或 约束 的 行为 。 在 其 他 情况 下 不 必 产 
生 诊 断 信息 。” 

“ Brian Scearce* 所 总 结 的 有 用 规律 一 一 如果 你 听 到 一 个 程序 员 说 “应 该 ”(Cshall) ， 

那么 他 一 定 在 引用 标准 里 的 说 法 。 

* 舱 套 脚注 (nested footnote) 的 发 明 者 。 


[4] The New Hacker’s Dictionary 把 语言 律师 定义 为 “能 从 200 多 页 的 手册 中 提取 5 
句 话 ， 拼 起 来 放 到 你 面前 ， 你 只 要 一 看 就 能 明白 自己 问题 的 答案 的 人 ”， 嘿 ! 在 这 
个 例子 中 正 是 如 此 。 


[5] 即 int 是 32 位 。 一 一 译 者 注 


[6] 即 long 是 32 位 而 int 是 16 位 。 一 一 译 者 注 


[7] 即 long 和 int 均 为 32 位 。 一 一 译 者 注 


[8] The Elements of Programming Style 是 一 本 文字 流畅 、 细 节 真 实 的 优秀 作品 
一 一 非常 值得 购买 ， 你 能 从 中 获 益 良 多 。 


生生 ， 


第 2 章 ”这 不 是 Bug， 而 是 语言 特性 


Bug 是 迄今 为 止 地 球 上 最 庞大 、 最 成 功 的 实体 类 型 ， 有 近 百 万 种 已 知 的 品 
中 。 在 这 个 方面 ， 它 比 其 他 任何 已 知 的 生物 种 类 的 总 和 还 要 多 ， 而 且 至 少 多 出 4 


i 
sr 
至 是。 


< 


一 一 摘自 Snope 教 授 的 Encyclopedia of Animal Life 


2.1 这 关 语 言 特性 何事 ， 在 Fortran 里 这 残 是 Bug 呀 


这 确实 与 编程 语言 的 细节 有 关 。 语 言 的 细节 决定 了 一 种 语言 到 底 是 可 靠 的 还 
是 容易 滋生 错误 的 。1961 年 夏天 ，NASA (美国 航空 航天 局 〉 的 一 名 程序 员 戏 剧 
性 地 向 世人 展示 了 这 一 点 。 他 测试 一 个 用 于 计算 环绕 地 球 轨道 的 Fortran 子 程序 
贡 。 这 个 子 程序 已 经 数 次 用 于 简短 的 MercuryP2j 飞 行 ， 但 它 的 计算 结果 总 是 达 不 到 
预期 的 精度 ， 无 法 满足 更 外 层 的 太空 飞行 和 登 月 计划 。 计 算 结 果 尽 管 非常 接近 ， 
但 与 预期 的 精度 相 比 还 是 有 一 定 的 距离 。 


经 过 对 算法 、 数 据 和 预期 结果 的 漫长 检查 之 后 ， 这 名 工程 师 最 终 注意 到 了 下 
面 这 行 代码 : 


Do 16 工 = 1.16 


显然 ， 程 序 员 的 原意 是 想 编写 下 面 这 样 的 循环 : 


Do 16 I = 1,16 


在 Fortran 中 ， 空 白字 符 没有 什么 意义 ， 它 们 甚至 可 以 在 标识 符 的 内 部 出 现 。 
Fortran 设 计 者 的 初衷 是 这 样 可 以 避免 因 打 卡 机 的 振动 而 产生 的 错误 ， 提 高 程序 的 
可 靠 性 。 所 以 ， 可 以 使 用 像 MAX Y 这 样 的 标识 符 。 但 不 幸 的 是 ， 编 译 器 自作 聪明 
地 把 上 面 这 条 语句 理解 成 : 


Do16I = 1.16 


在 Fortran 中 ， 变 量 无 须 声 明 即 可 使 用 。 在 上 面 这 条 语句 中 ，1.10 被 赋值 给 隐 
式 声明 的 浮 点 型 变量 Do10I。 这 条 语句 位 于 一 个 循环 结构 中 ， 但 它 只 执行 了 1 次 而 
不 是 预期 的 10 次 。 它 只 是 在 第 一 次 给 出 一 个 近似 值 ， 而 不 是 通过 和 友 代 法 逐步 求 
精 。 把 句号 改 成 逗号 后 ， 计 算 结 果 的 精度 就 与 预期 的 相符 了 。 


这 个 Bug 发 现 得 早 ， 因 此 并 不 像 许多 人 声称 的 那样 曾经 导致 Mercury 太 空 飞 行 


失败 (本 章 最 后 所 描述 的 Mariner 飞 行 项 目 中 的 男 一 个 Bug， 确 实 导 人 臻 了 这 个 后 

果 ) ， 但 它 确 实生 动 地 说 明了 语言 设计 的 重要 性 。 在 C 语 言 中 ， 也 存在 太 多 类 似 
的 含糊 之 处 或 近似 含糊 之 处 。 本 章 描述 了 其 中 一 个 最 容易 出 错 的 典型 例子 ， 并 且 
说 明了 为 什么 它们 通常 被 作为 Bug 看 待 。 当 然 ， 在 C 语 言 中 也 可 能 出 现 其 他 问题 。 
例如 ， 无 论 在 什么 时 候 ， 如 果 遇 见 了 这 样 一 条 语句 malloc(strlen(st);， 几 乎 可 以 
断定 它 是 错误 的 ， 而 malloc(strlen(str)+1) 才 是 正确 的 。 这 是 因为 其 他 的 字符 串 处 理 
库 函 数 几 乎 都 包含 一 个 额外 空间 ， 用 于 容纳 字符 串 结尾 的 ^0' 字 符 。 所 以 ， 人 们 很 
容易 忽略 strlen 这 个 特殊 情况 。 在 程序 员 的 脑海 里 ， 上 面 这 个 malloc 错 误 是 库 函 数 
的 问题 。 但 是 ， 本 章 的 重点 是 C 语 言 本 身 存 在 的 问题 ， 而 不 是 程序 员 在 使 用 中 存 
在 的 问题 。 


分 析 编 程 语言 缺陷 的 一 种 方法 就 是 把 所 有 的 缺陷 归于 3 类 : 不 该 做 的 做 了 ; 
该 做 的 没 做 ; 该 做 但 做 得 不 合适 。 为 了 方便 起 见 ， 我 们 分 别 把 它们 称 作 “多 做 之 
过 ”“ 少 做 之 过 ”和 “ 误 做 之 过 "。 接 下 来 的 几 个 小 节 我 们 就 按照 这 种 分 类 方法 探讨 C 


语言 的 特性 。 


本 章 并 不 是 想 对 C 语 言 进 行 致命 打击 。C 是 一 门神 奇 的 编程 语言 ， 具 有 许多 优 
点 。 它 是 一 种 非常 流行 的 实现 语言 ， 被 许多 平台 所 选用 ， 而 它 确实 也 值得 人 们 如 
此 看 重 。 但 是 ， 正 如 我 的 祖母 曾 说 过 的 那样 ， 当 在 超 导 条 件 下 进行 超级 碰撞 时 不 
可 能 连 一 个 原子 也 不 撞 雁 。 所 以 在 欣赏 C 语 言 的 优点 时 也 不 要 瑟 了 分 析 一 下 它 的 
缺陷 。 综 上 ， 进 步 是 计算 机 软件 工程 和 编程 语言 设计 艺术 逐步 发 展 的 重要 动因 。 
这 也 是 为 什么 C++ 语言 令 人 失望 的 原因 : 它 对 C 语 言 中 存在 的 一 些 最 基本 的 问题 
没有 什么 改进 ， 而 它 对 C 语 言 最 重要 的 扩展 (类) 却 是 建立 在 脆弱 的 C 类 型 模型 
上 上。 所 以 ， 本 着 改进 未 来 编程 语言 的 探索 精神 ， 让 我 们 对 C 语 言 进行 望 闻 问 切 ， 
详细 记录 病历 。 


小 启发 

一 个 ”的 NUL 和 两 个 “LL” 的 NULL 

牢记 下 面 的话 ， 它 有 助 于 回忆 指针 和 ASCII 码 “ 零 ”的 正确 术语 : 
一 个 “L” 的 NUL 用 于 结束 一 个 ACSII 字 符 串 ; 


两 个 ”的 NULL 用 于 表示 什么 也 不 指向 ( 空 指针 〉。 


当然 ， 如 果 出 现 了 3 个 ”的 NULLL， 那 就 要 检查 一 下 有 没有 拼写 错误 了 。 
ACSII 字 符 中 零 的 位 模式 被 称 为 “NUL”。 表 示 哪 里 也 不 指向 的 特殊 的 指针 值 则 
是 “NULL”。 这 两 个 术语 不 可 互 换 。 


2.2 多 做 之 过 


“多 做 之 过 ”就 是 语言 中 存在 某 些 不 应 该 存在 的 特性 。 这 些 特性 包括 容易 出 错 
的 switch 语 句 、 相 邻 字 符 串 常量 的 自动 连接 和 缺 省 全 局 作用 域 。 


2.2.1 由 于 存在 fall through，switch 语 句 会 带 来 麻烦 


switch 语 句 的 一 般 形式 如 下 : 


switch 〈 表 达 式 ) { 
case 常量 表达 式 : 零 条 或 多 条 语句 
default: 零 条 或 多 条 语句 

case 常量 表达 式 : 零 条 或 多 条 语句 


} 


每 个 case 结 构 由 3 个 部 分 组 成 : 关键 字 case; 紧 随 其 后 的 常量 值 或 常量 表达 
式 ; 再 紧 接 一 个 冒号 。 当 表达 式 的 值 与 case 中 的 常量 匹配 时 ， 该 case 后 面 的 语句 就 
会 执行 。default《〈 如 果 有 的 话 ) 可 以 出 现在 case 列 表 的 任何 位 置 ， 它 在 其 他 的 case 
均 无 法 匹配 时 被 选中 执行 。 如 果 没 有 default， 而 且 所 有 的 case 均 不 匹配 ， 则 整 条 
Switch 语句 便 什么 都 不 做 。 许 多 人 可 能 觉得 如 果 所 有 的 case 均 不 匹配 ， 应 该 给 出 一 
个 运行 时 错误 信息 ， 提 示 “ 无 匹配 ”，Pascal 语 言 就 是 这 样 做 的 。 在 C 语 言 中 ， 几 乎 
从 来 不 进行 运行 时 错误 检查 一 一 对 进行 解除 引用 操作 的 指针 进行 有 效 性 检查 大 概 
是 唯一 的 例外 ， 而 且 在 MS-DOS 系 统 里 甚至 连 这 点 很 有 限 的 检查 都 无 法 保证 。 


小 局 发 


一 岂 一 … 


MS-DOS 的 运行 时 检查 


无 效 的 指针 可 能 会 成 为 程序 员 的 趾 梦 。 人 们 很 容易 用 一 个 无 效 的 指针 来 引用 
内 存 。 在 所 有 的 虚拟 内 存 体系 结构 里 ， 一 旦 一 个 指针 进行 解除 引用 操作 时 所 引用 
的 内 存 地 址 超出 了 虚拟 内 存 的 地 址 空间 ， 操 作 系统 就 会 中 止 这 个 进程 。 但 MS- 
DOS 并 不 文 持 虚 拟 内 存 ， 即 使 内 存 访 问 失败 ， 它 也 无 法 立即 捕捉 到 这 种 情况 。 


然而 ， 在 MS-DOS 中 可 以 动 点 小 脑筋 ， 在 程序 结束 之 后 检测 解除 引用 空 指 针 
的 情况 。 在 Microsoft 和 Borland C 中 都 采用 了 这 方面 的 办 法 。 有 具体 方法 是 在 进入 程 
序 前 ， 保 存 内 存 地 址 为 零 时 存储 的 内 容 。 在 程序 结束 时 ， 系 统 检查 这 个 地 址 的 值 
与 原先 的 是 否 相 同 。 如 果 不 同 ， 基 本 可 以 肯定 你 的 程序 使 用 了 空 指 针 来 访问 内 
存 ， 运 行 时 系统 会 打印 出 一 条 “null pointer assignment”( 空 指针 赋值 ) 信息 。 


关于 这 方面 的 内 容 ， 第 7 章 有 进一步 的 描述 。 


运行 时 检查 与 C 语 言 的 设计 理念 相 违 背 。 按 照 C 语 言 的 理念 ， 程 序 员 应 该 知道 
自己 正在 干什么 ， 而 且 保 证 自己 的 所 作 所 为 是 正确 的 。 


各 个 case 和 default 的 顺序 可 以 是 任意 的 ， 但 习惯 上 总 是 把 default 放 在 最 后 。 一 
个 遵循 标准 的 C 编 译 器 至 少 允 许 一 条 switch 语 句 中 有 257 个 case 标 签 (ANSI C 标 
准 ， 第 5.2.4.1 节 ) 。 这 是 为 了 允许 switch 满 足 一 个 8 比特 字符 的 所 有 情况 (256 个 可 
能 的 值 加 上 EOF) 。 


switch 存 在 一 些 问 题 ， 其 中 之 一 就 是 它 对 case 可 能 出 现 的 值 太 过 于 放纵 了 。 例 
如 ， 可 以 在 switch 的 左 花 括 号 之 后 声明 一 些 变量 ， 从 而 进行 一 些 局 部 存储 的 分 
配 。 在 最 初 的 编译 器 里 ， 这 是 一 个 技巧 一 一 绝 大 多 数 用 于 处 理 任 何 复合 语句 的 代 
码 都 可 以 被 复 用 ， 可 以 用 于 处 理 switch 语 句 中 由 花 括 号 包 住 的 那 部 分 代码 。 所 以 
在 这 个 位 置 上 声明 一 些 变量 会 被 编译 器 很 自然 地 接受 ， 尽 管 在 switch 语 句 中 为 这 
些 变量 加 上 初始 值 没 有 什么 用 处 ， 因 为 它 绝 不 会 被 执行 一 一 语句 从 匹配 表达 式 的 
case 开 始 执行 。 


小 启发 


需要 一 些 临时 变量 吗 ? 把 它 放 在 块 的 开始 处 ! 


在 C 语 言 中 ， 当 建立 一 个 块 时 ， 一 般 总 是 这 样 开始 的 : 


你 总 是 可 以 在 两 者 之 间 增 加 一 些 声明 ， 如 : 


当 分 配 动态 内 存 代价 较 高 时 ， 你 可 能 会 采用 这 种 局 部 存储 的 方法 ， 但 有 可 能 
的 话 要 尽量 避免 。 编 译 器 可 以 目 由 地 忽略 它 ， 它 可 以 通过 函数 调用 来 分 配 所 有 局 
部 块 需要 的 内 存 空间 。 男 一 种 用 法 是 声明 一 些 完全 局 部 于 当前 块 的 变量 。 


if(a > b) 
/* 交换 a,，b */ 
{ 


int temp = a; 
a= b; b = temp; 
} 


C++ 在 这 方面 又 进 了 一 步 ， 人 允许 语句 和 声明 以 任意 的 顺序 交叉 出 现 ， 甚 至 允 
许 变量 的 声明 出 现在 for 表 达 式 的 内 部 。 


for(int i = 6j i < 166;j i++) { ... 
如 果 不 加 限制 地 使 用 ， 可 能 会 带 来 一 些 混 乱 。 


switch 的 男 一 个 问题 是 它 内 部 的 任何 语句 都 可 以 加 上 标签 ， 并 在 执行 时 跳 转 
到 那里 ， 这 就 有 可 能 破坏 程序 流 的 结构 化 : 


Switch(i) { 
case 5 + 3: do again: 
case 2: printf("I loop unremittingly\n"); goto do again; 
default: i+t+; 
Case 3: ，; 


} 


所 有 的 case 都 是 可 选 的 ， 任 何 形式 的 语句 一 包括 带 标签 的 语句 都 是 允许 
的 。 这 就 意味 着 有 些 错误 甚至 连 lint 程 序 也 可 能 无 法 检测 出 来 。 有 一 次 ， 我 的 一 位 
同事 打 错 了 字 ， 把 default 打 成 了 default( 误 把 字母 4” 打 成 数 字 “1”) 。 要 查 出 这 个 
错误 实在 是 太 困难 了 ， 它 的 实际 效果 相当 于 default 子 句 根本 不 存在 于 switch 语 句 
中 。 但 是 ， 它 能 顺利 通过 编译 ， 不 会 显示 错误 信息 ， 即 使 仔仔 细 细 地 把 源 代码 看 
遍 ， 也 找 不 出 任何 蹊跷 。 绝 大 多 数 lint 程 序 都 无 法 检测 到 这 个 错误 。 


顺便 提 一 句 ， 在 C 语 言 中 ，const 关 键 字 并 不 真正 表示 常量 ， 如 : 


const int two = 2; 


switch(i) { 
case 1: printf("case 1\n"); 
case two: printf("case 2\n"); 
**error** 人 ^^ integral constant expression expected 
case 3: printf("case 3\n"); 
default: ; 


} 


上 面 的 代码 将 产生 一 个 如 上 所 示 的 编译 错误 。 这 并 不 是 switch 语 句 本 身 的 过 
错 ， 但 这 条 switch 语 句 展示 了 const 其 实 并 不 是 真正 的 常量 。 


也 许 switch 语 句 最 大 的 缺点 是 它 不 会 在 每 个 case 标 签 后 面 的 语句 执行 完毕 后 自 
动 中 止 。 一 旦 执行 某 个 case 语 句 ， 程 序 将 会 依次 执行 后 面 所 有 的 case， 除 非 遇 到 
break 语 句 。 执 行 下 述 代码 : 


Switch(2) { 
case 1: printf("case 1\n"); 
case 2: printf("case 2\n"); 
case 3: printf("case 3\n"); 
case 4: printf("case 4\n"); 
default: printf("default \n"); 


输出 结果 将 是 : 


case 2 
Case 3 
case 4 
default 


这 称 之 为 “fall through”， 意 思 是 : 如 果 case 语 句 后 面 不 加 break， 就 依次 执行 
下 去 ， 以 满足 某 些 特殊 情况 的 要 求 。 但 实际 上 ， 这 是 一 个 非常 不 好 的 特性 ， 因 为 
几乎 所 有 的 case 都 需要 以 break 结 尾 。 大 部 分 lint 程 序 在 发 现 *fall through” 情 况 时 会 


发 出 警告 信息 。 


BE ,,. 
软件 信条 


缺 省 采用 “fall through”， 在 97% 的 情况 下 都 是 错误 的 


我 们 分 析 了 Sun 的 C 编 译 器 ， 想 看 看 缺 省 的 “fall through” 的 使 用 频率 。Sun 
ANSI C 编 译 器 的 前 端 共 有 244 条 switch 语 句 ， 平 均 每 条 含有 7 个 case。 在 所 有 的 case 
中 ， 采 用 “fall through” 的 只 占 3%。 


换 句 话说 ，switch 语 句 的 缺 省 行为 在 97% 的 情况 下 都 是 错误 的 。 并 不 仅仅 在 编 
译 器 中 如 此 ， 事 实 上 ， 在 编译 器 的 switch 语 句 里 使 用 “fall through” 的 概率 要 大 于 其 
他 的 软件 。 例 如 ， 在 编译 可 能 具有 一 个 或 两 个 操作 数 的 操作 符 时 : 


switch(operator->num_of operands) { 


case 2: process operand(operator->operand 2); 
/* fall through */ 

case 1: process operand(operator@>operand 1); 

break; 


} 


由 于 case 的 “fall through” 被 如 此 广泛 地 认为 是 一 个 缺陷 ， 由 此 甚至 出 现 了 一 个 
特殊 的 注释 约定 ， 如 上 所 示 。 它 告诉 lint 程 序 ， 现 在 的 “fall through” 是 处 于 3% 正 确 
的 时 候 。 这 种 缺 省 的 “fall through” 所 带 来 的 不 便 被 许多 程序 所 证 实 。 


我 们 认为 ，C 语 言 的 设计 中 把 “fall through” 作 为 switch 的 缺 省 行为 是 一 个 失 
误 。 在 绝 大 多 数 的 情况 下 ， 你 不 希望 这 个 缺 省 的 行为 ， 而 不 得 不 加 上 一 条 额外 的 
break 语 句 来 改变 它 。 正 如 Through the Looking Glass 中 Red Queen 对 Alice 所 说 的 ， 
即使 两 个 都 用 到 了 ， 也 不 能 说 明 它 就 是 正确 的 。 


switch 的 另 一 个 问题 


break 中 断 了 什么 


下 面 这 段 代 码 是 从 AT&T 的 电话 服务 程序 中 摘录 下 来 的 ， 这 段 代 码 曾 在 美国 
全 国 范围 内 造成 AT&T 电 话 服务 的 停顿 。 从 1990 年 1 月 15 日 下 午 起 ， 大 约 有 9 小 
时 ，AT&T 电 话 网 络 的 大 部 分 处 于 瘫痪 状态 。 当 时 的 电话 交换 (行业 用 语 是 switch 
system [交换 系统 ] ) 都 采用 了 计算 机 系统 ， 而 这 段 代 码 运行 于 4ESS 型 Central 
Office Switching System 〈 中 央 办 公交 换 系 统 ) 。 它 证 明了 在 C 语 言 中 ， 人 们 太 容 
易 低 估 break 语 句 对 控制 结构 的 影响 。 


network code() 


switch(line){ 
case THING1 : 
doit1(); 


break ; 
case THING2 : 
if(x == STUFF) { 


do _first_stuff() ; 


if(y == OTHER_STUFF ) 
break ; 
do_later_stuff() 
} /* 代 码 的 意图 是 跳 到 这 里 ..….*/ 
initialize modes_pointer(); 
break 


default: 
processing(); 
} /i 但 事实 上 跳 到 了 这 里 。*/ 
use_modes_pointer(); /* 致使 nodes_pointer 未 初始 化 */ 
} 


我 对 代码 做 了 一 些 简化 ， 用 于 说 明 这 个 Bug 已 经 足够 了 。 那 个 程序 员 希 望 从 if 
语句 跳出 ， 但 他 忘 了 break 语 句 事实 上 跳出 的 是 最 近 的 那 层 循环 语句 或 switch 语 
句 。 现 在 ， 它 跳出 了 switch 语 句 ， 然 后 执行 Use_modes_pointer(); 这 条 语句 。 但 是 ， 
必要 的 初始 化 工作 并 未 完成 ， 这 为 将 来 程序 的 失败 埋 下 了 伏笔 。 


这 段 代码 最 终 导 致 了 AT&T 114 年 的 历史 上 第 一 次 重大 的 网 络 故 障 。 这 次 事 
件 的 详细 报道 刊登 于 1990 年 1 月 22 日 Telephony 杂 志 的 第 11 页 。 事 实 上 ， 网 络 信和 号 
系统 的 这 个 设计 失误 引起 了 一 连 串 的 反应 ， 最 终 导致 了 整个 长 话 网 络 的 瘫痪 。 而 
这 一 切 ， 都 归 因 于 C 语 言 中 的 一 条 switch 语 句 。 


2.2.2 ”粉笔 也 成 了 可 用 的 硬件 


ANSI C 引 入 的 男 一 个 新 特性 是 “ 相 邻 的 字符 串 常 量 将 被 自动 合并 成 一 个 字符 
串 ” 的 约定 。 这 就 省 挤 了 过 去 在 书写 多 行 信息 时 必须 在 行 末 加 “的 做 法 ， 后 续 的 
字符 串 可 以 出 现 于 每 行 的 开头 。 


上 日 风格 : 


printf( "A favorite children’s book \ 
is ?muffy Gets It: the hilarious tale of a cat,\ 
a boy, and his machine gun’"); 


现在 可 以 用 一 连 串 相 邻 的 字符 串 常 量 来 代 蔡 它 ， 它 们 会 在 编译 时 自动 合并 。 
除了 最 后 一 个 字符 串 外 ， 其 余 每 个 字符 串 末 尾 的 ^0' 字 符 会 被 自动 删除 。 


新 风格 : 


printf("A second favorite children’s book" 
"is ”Thoms the tank engine and the Naughty Enginedriver who" 
"tied down Thomas’s boiler safety valve’"); 


然而 ， 这 种 自动 合并 意味 着 字符 串 数组 在 初始 化 时 ， 如 果 不 小 心 漏 掉 了 一 
逗号 ， 编 译 器 将 不 会 发 出 错误 信息 ， 而 是 悄 无 声息 地 把 两 个 字符 串 合并 在 一 起 。 
这 在 下 面 的 例子 里 将 引起 可 怕 的 后 果 : 


char *available resouces[] = { 
"color monitor", 
"big disk", 
"Cray” 。/* 哇 ! 少 了 个 逗号 。*/ 


"on-line a routhines", 


"mouse", 
"keyboard", 
"power cables"，  /*# 这 个 多 余 的 逗号 会 引起 什么 问题 吗 ? */ 


这 样 ，available_resource[2] 就 成 了 “Crayon-line drawing routines”。 这 中 原先 的 
意思 大 相 径 庭 ， 粉 笔 〈Crayon) 竟 也 成 了 硬件 资源 ! 


字符 串 的 数目 比 预 期 的 少 了 一 个 。 这 样 ， 如 果 在 程序 中 修改 了 
available_resouce[6]， 就 等 于 修改 了 其 他 的 变量 。 顺 便 提 一 句 ， 最 后 那个 字符 串 末 
尾 的 逗号 并 不 是 打字 错误 ， 而 是 从 最 早 的 C 语 法 中 继承 下 来 的 东西 ， 不 管 存在 与 
否 都 没有 什么 意义 。ANSI C Rationale 对 它 进行 了 辩护 ， 称 它 使 C 语 言 在 自动 生成 
(automated generation) 时 更 加 容易 一 些 。 我 想 ， 这 种 拖 尾巴 逗号 如 果 在 其 他 由 
逗号 分 隔 的 列表 《〈 如 枚 举 声 明 、 单 行 多 变量 声明 等 ) 中 也 人 允许 使 用 ， 那 还 说 得 过 
去 ， 可 惜 事实 并 非 如 此 。 


小 启发 


第 一 次 执行 


这 里 展示 了 一 种 简单 的 方法 ， 使 一 段 代 码 在 第 一 次 执行 时 的 行为 与 以 后 执行 
时 不 同 。 


下 面 的 函数 在 第 一 次 执行 时 ， 其 行为 与 它 以 后 执行 时 的 行为 不 同 。 要 达到 这 
个 目的 ， 还 有 其 他 几 种 方法 ， 但 这 种 方法 能 使 分 支 和 条 件 测 试 减少 到 最 小 程度 。 


generate initializer(char * string) 


static char separator = ”;’; 
printf( "%c %s \n", Gea string); 
separator = ”,’; 


} 


在 第 一 次 执行 时 ， 函 数 首先 打印 一 个 空格 ， 然 后 打印 一 个 初始 化 字符 串 。 所 
有 后 续 的 初始 化 字符 串 〈 如 果 有 的 话 ) 的 前 面 将 加 上 一 个 逗号 。“ 第 一 次 执行 的 前 
面 加 个 空格 ? 相 比 “最 后 一 次 执行 ， 省 略 去 号 后 缀 ?对 程序 而 言 更 简单 了 。 


这 个 辩护 理由 很 难 让 人 相信 ， 因 为 对 于 自动 化 程序 ， 可 以 声明 静态 变量 ， 初 
始 为 空格 ， 然 后 变 为 逗号 (如 上 面 的 “小 启发 "栏目 所 示 ) ， 这 样 就 能 控制 逗号 的 
答 出 与 下 了 。 这 种 拖 尾 逗号 将 会 抑制 正确 的 行为 ， 对 程序 也 没有 好 处 。 在 C 语 计 
中 另外 还 有 一 些 由 逗号 分 隔 的 项 目 例子 ， 它 们 并 不 用 逗号 来 结束 列表 。 这 种 夯 蛇 
添 足 的 拖 尾 去 号 在 大 部 分 情况 下 只 会 使 代码 的 可 读 性 变 差 。 


2.2.3 太 多 的 缺 省 可 见 性 


定义 C 函 数 时 ， 在 缺 省 情况 下 函数 的 名 字 是 全 局 可 见 的 。 可 以 在 函数 的 名 字 
前 加 个 见 余 的 extem 关 键 字 ， 也 可 以 不 加 ， 效 果 是 一 样 的 。 这 个 函数 对 于 链接 到 
它 所 在 的 目标 文件 的 任何 东西 都 是 可 见 的 。 如 果 想 限制 对 这 个 函数 的 访问 ， 就 必 
须 加 static 关 键 字 。 


function apple() { /* 在 任何 地 方 均 可 见 */ } 
extern function pear() { /* 在 任何 地 方 均 可 见 */ } 


static function turnip() { /* 在 这 个 文件 之 外 不 可 见 */} 


事实 上 ， 几 乎 所 有 人 都 没有 在 函数 名 前 添加 存储 类 型 说 明 符 的 习惯 ， 所 以 绝 
大 多 数 函 数 都 是 全 局 可 见 的 。 


根据 实际 经 验 ， 这 种 缺 省 的 全 局 可 见 性 多 次 被 证 明 是 个 错误 ， 这 已 是 盖 棺 定 
论 。 软 件 对 象 在 大 多 数 情况 下 应 该 缺 省 地 采用 有 限 可 见 性 。 当 程序 员 需 要 让 和 它 全 
局 可 见 时 ， 应 该 采用 显 式 的 手段 。 


这 种 太 大 范围 的 全 局 可 见 性 会 与 C 语 言 的 另 一 个 特性 相互 产生 影响 ， 那 就 是 
interpositioning。interpositioning 就 是 用 户 编 写 和 库 函 数 同名 的 函数 并 取而代之 的 
行为 。 许 多 C 程 序 员 完全 没有 注意 过 这 个 特性 ， 关 于 这 方面 的 细节 将 在 第 5 章 讨论 
链接 时 详 述 。 现 在 ， 你 的 脑子 里 只 要 这 样 想 : “关于 interpositioning， 我 还 需要 学 
习 很 多 东西 。” 


作用 域 过 宽 的 问题 常见 于 库 中 : 一 个 库 需 要 让 一 个 对 象 在 为 一 个 库 中 可 见 。 
唯一 的 方法 是 让 它 变 得 全 局 可 见 。 但 这 样 一 来 ， 它 对 于 链接 到 该 库 的 所 有 对 象 都 
是 可 见 的 了 。 这 就 是 all-or-nothing 一 个 符号 要 么 全 局 可 见 ， 要 么 对 其 他 文件 
都 不 可 见 。 在 C 语 言 中 ， 对 信息 可 见 性 的 选择 就 是 这 么 有 限 。 


由 于 你 无 法 像 在 Pascal 中 那样 在 一 个 函数 内 部 杠 套 男 一 个 函数 的 定义 ， 因 此 


这 个 问题 变 得 更 加 糟糕 。 一 个 大 型 函数 的 一 群 < 内 部 ?函数 不 得 不 在 该 函数 的 外 部 
进行 定义 。 没 有 人 会 记得 在 它们 之 前 加 上 static 限 定 符 ， 所 以 它们 在 缺 省 情况 下 是 
全 局 可 见 的 。Ada 和 Modula-2 语 言 使 用 一 种 易于 处 理 的 方法 来 解决 这 个 问题 ， 惑 
是 在 各 个 程序 单元 中 明确 说 明 哪些 符号 是 引入 的 ， 哪 些 是 引出 的 。 


2.3 ” 误 做 之 过 


C 语 言 中 属于 “ 误 做 之 过 ”的 特性 ， 就 是 语言 中 有 误导 性 质 或 是 不 适当 的 特 
性 。 这 些 特性 有 些 跟 C 语 言 的 简洁 有 关 《 部 分 与 符号 的 过 度 复 用 有 关 ) ， 有 些 则 
与 操作 符 的 优先 级 有 关 。 


2.3.1 骆驼 背 上 的 重 载 


C 语 言 存在 的 一 个 问题 就 是 它 太 简洁 了 ， 仅 增加 、 修 改 或 删除 一 个 字符 就 会 
使 原先 的 程序 变 成 另外 一 个 仍然 有 效 却 全 然 不 同 的 程序 。 更 糟 的 是 ， 许 多 符号 是 
被 “ 重 载 "的 一 一 在 不 同 的 上 下 文 环境 里 有 不 同 的 意义 。 其 至 有 些 关 键 字 也 因 重 载 
而 具有 好 几 种 意义 ， 这 也 是 C 语 言 的 作用 域 规则 对 程序 员 不 那么 清晰 的 主要 原 


。 表 2-1 展 示 了 C 语 言 中 类 似 的 符号 是 如 何 具 有 多 种 不 同意 义 的 。 


表 2-1 C 语 言 中 的 符号 重 载 


符号 意义 
i 在 函数 内 部 ， 表 示 该 变量 的 值 在 各 个 调用 间 一 直 保 持 延续 性 
STatlt 
在 函数 这 一 级 ， 表 示 该 函数 只 对 本 文件 可 见 虽 ] 
用 于 函数 定义 ， 表 示 全 局 可 见 〈 属 于 元 余 的 ) 
extern 
用 于 变量 ， 表 示 它 在 其 他 地 方 定义 


作为 函数 的 返回 类 型 ， 表 示 不 返回 任何 值 
void 在 指针 声明 中 ， 表 示 通 用 指针 的 类 型 
位 于 参数 列表 中 ， 表 示 没 有 参数 


乘法 运算 符 
用 于 指针 ， 间 接 引 月 


"Es 


在 声明 中 ， 表 示 指 针 


位 的 AND 操 作 符 


取 地 址 操作 符 
赋值 符 
-- | 比较 运算 和 

小 于 等 于 运算 符 
人 


左 移 复合 赋值 运算 符 


小 于 运算 符 
#include 指 令 的 左 定 界 符 


在 函数 定义 中 ， 包 围 形式 参数 表 
调用 一 个 函数 
改变 表达 式 的 运算 次 序 

将 值 转换 为 其 他 类 型 (强制 类 型 转换 ) 
定义 带 参 数 的 宏 

包围 sizeof 操 作 符 的 操作 数 〈 如 果 它 是 类 型 名 ) 


除 此 之 外 ， 还 有 一 些 符 号 具有 多 个 容易 混 消 的 意思 。 有 一 位 心里 没 底 的 程序 
员 在 面 对 if(x>>4) 这 样 的 语句 曾经 感到 困惑 ， 问 道 :“ 这 是 什么 意思 ? 它 是 不 是 表 


示 X 远 远大 于 4? ” 


重 载 存在 问题 之 处 如 下 面 的 语句 所 示 : 


p=N* sizeof * q; 


你 能 不 能 马上 推断 出 ， 这 里 是 一 个 乘 号 还 是 两 个 ? 提示: 接 下 去 的 一 条 语句 


是 : 
r = malloc(p); 

答案 是 这 里 只 有 一 个 乘 号 ， 因 为 sizeof 操 作 符 把 指针 q 指 向 的 东西 〈《 即 *q) 作 
为 操作 数 ， 它 返回 q 所 指向 对 象 的 类 型 的 字 节 数 ， 便 于 malloc 函 数 分 配 内 存 。 当 


sizeof 的 操作 数 是 一 个 类 型 名 时 ， 两 边 必须 加 上 括号 《〈 这 常常 使 人 误 以 为 它 是 个 函 
数 ) ， 但 操作 数 如 果 是 变量 则 不 必 加 括号 。 


这 里 有 一 个 更 为 复杂 的 例子 : 


apple = sizeof(int) * p; 


这 代表 什么 意思 ? 是 int 的 长 度 乘 以 p? 或 者 是 把 未 知 类 型 的 指针 p 强 制 转换 为 
int， 然 后 进行 sizeof 操 作 ? 或 者 还 有 其 他 更 奇怪 的 解释 ? 这 里 没有 给 出 答案 ， 要 想 
成 为 一 位 熟练 的 程序 员 ， 必 须要 自己 编写 测试 程序 探索 这 类 问题 。 请 试 试 吧 ! 看 
看 是 什么 结果 。 


一 个 符号 所 表达 的 意思 越 多 ， 编 译 器 就 越 难 检测 到 这 个 符号 在 你 的 使 用 中 所 
存在 的 异常 情况 。 这 并 不 像 那些 有 烦恼 的 人 那样 ， 在 迪斯尼 乐园 与 奇异 乌 一 起 歌 
唱 就 可 解除 烦恼 。C 语 言 似乎 比 其 他 语言 更 靠近 标记 歧义 性 的 曲折 边缘 。 


2.3.2 “有 些 运 算 符 的 优先 级 是 错误 的 ?” 


当 C 语 言 最 初 文献 的 作者 告诉 你 “有 些 运 算 符 的 优先 级 是 错误 的 ”的 时 候 ， 就 
像 Kernighan 和 Ritchie 在 The C Programming Language 第 3 页 中 所 说 的 那样 ， 你 肯定 
会 觉得 确实 存在 问题 。 尽 管 如 此 ，ANSI C 在 修改 运算 符 优先 级 方面 并 没有 采取 什 
么 动作 ， 这 也 毫 不 奇怪 ， 因 为 如 果 对 运算 符 的 优先 级 作 了 修改 ， 那 么 大 量 现 有 的 
代码 就 会 出 现 问题 。 


但 是 ， 到 抵 是 哪些 C 运 算 符 存 在 错误 的 优先 级 呢 ? 答案 是 “ 当 按 照常 规 方式 使 


用 时 ， 可 能 引起 误会 的 任何 运算 符 ”"”。 有 些 常常 会 给 不 注意 的 人 带 来 麻烦 的 运算 符 
见 表 2-2。 


表 2-2 CC 语言 运算 符 优 先 级 存在 的 问题 
优先 级 问题 j 人 们 可 能 误 以 为 的 结果 实际 结果 
.的 优先 级 高 于 * 
a 对 p 取 f 偏 移 ， 作 为 指针 ， 然 后 
-> 操作 符 用 于 消除 这 . p 所 指 对 象 的 字段 { (*p)f | 、 
、 进行 解除 引用 操作 *(p.f) 
个 问题 
是 个 指向 int 数 组 的 指 
区 |ap 是 个 元 素 为 int 指 针 的 数组 
吕 高 于 * 针 | 
int *(a 
int(vapj] 
函数 0 高 于 * ee 所 指 函 pel 返 
数 返 回 int int(*fp)0 int *(fp()) 
== 和 != 高 于 位 操作 符 (val & mask) != 0 val & (mask != 0) 
== 和 != 高 于 赋值 符 (c = getchar()) != EOF c= (getchar() != EOF) 
(msb << 4) + lsb msb << (4 + lsb) 
过 号 运算 符 在 所 有 运 
算 符 中 优先 级 最 低 


如 果 坐 下 来 好 好 想 一 下 ， 这 些 运 算 符 中 的 大 部 分 就 会 变 得 明了 。 尽 管 有 些 涉 
及 喜 号 的 情况 有 时 会 让 程序 员 区 斯 底 里 。 例 如 ， 当 下 面 代码 执行 时 : 


的 最 终结 果 将 是 什么 ? 对 ， 我 们 知道 喜 号 运算 符 的 值 就 是 最 右边 操作 数 的 
值 。 但 在 这 里 ， 赋 值 符 的 优先 级 更 高 ， 所 以 实际 情况 应 该 是 : 


(i = 1)，2; /* 这 的 值 为 1 */ 


i 赋 值 为 1， 接 着 执行 音量 2 的 运算 ， 计 算 结果 丢弃 。 最 终 ，i 的 结果 是 1 而 不 是 


在 多 年 前 Usenet 的 一 个 公告 中 ，Dennis Ritchie 解 释 了 这 些 不 正常 的 情况 是 如 
何 由 于 历史 的 偶然 而 产生 的 。 


Bd ,,. 
软件 信条 


“And” 和 “AND”，“Or” 或 “OR” 

来 源 : ”decvax!harpolnpoiv!alice!lresearch!dmr 
日 期 : Fri Oct 22 01:04:10 1982 

主题 ， 操作 符 的 优先 级 

新 闻 组 : net.lang.c 


&&、|| 操 作 符 与 == 操 作 符 的 优先 级 关系 问题 是 这 样 产生 的 。 在 C 的 早期 ，&& 
和 && 合 用 同一 个 操作 符 ，| 和 | 也 是 如 此 。《 明 白 吗 ? ) 它 继 承 了 B 和 BCPL 中 的 概 


念 “ 真 值 上 下 文 "。 就 是 在 f 和 while 等 后 面 需 要 一 个 布尔 值 的 时 候 ，&& 和 | 就 被 翻译 
成 现在 的 && 和 |。 如 果 它 们 在 一 般 的 表达 式 里 ， 就 被 解释 成 位 操作 符 ， 也 就 是 现 
在 的 样子 。 这 个 机 制 操作 起 来 没有 问题 ， 但 理解 起 来 很 困难 〈 在 真 值 上 下 文 里 ， 
存在 “顶层 运算 符 ” 的 概念 ) 。 


& 和 | 的 优先 级 跟 现 在 一 样 。 最 初 ， 在 Alan Snyder 的 催促 下 ， 我 在 C 语 言 中 加 
入 了 && 和 || 操 作 符 ， 这 就 成 功 地 把 位 运算 的 概念 和 布尔 运算 的 概念 分 了 开 来 。 然 
而 ， 我 心怀 不 安 ， 因 为 我 意识 到 了 优先 级 的 问题 。 例 如 ， 在 现存 的 大 量程 序 中 ， 
存在 诸如 这 样 的 表达 式 : if(a ==b&c==d)。 


事后 回想 ， 如 果 我 们 一 开始 就 改变 优先 级 ， 让 & 的 优先 级 高 于 ==， 在 逻辑 上 
可 能 更 清晰 一 些 。 但 是 ， 从 安全 的 角度 出 度 ， 只 能 把 & 和 && 分 开 到 这 个 程度 ， 无 
法 在 两 者 的 优先 级 之 间 再 插入 其 他 的 操作 符 〈 和 否则 的 话 ， 现 有 的 大 量 代码 都 有 可 
能 出 问题 ) 。 


Dennis Ritchie 


小 局 发 


计算 的 次 序 


我 之 所 以 开 这 个 栏目 讨论 这 个 问题 ， 就 是 想 告 诉 你 ， 在 表达 式 中 如 果 有 布尔 
操作 、 算 术 运 算 、 位 操作 等 混合 计算 ， 始 终 应 该 在 适当 的 地 方 加 上 括号 ， 使 之 清 
楚 明 了 。 


记 住 ， 在 优先 级 和 结合 性 规则 告诉 你 哪些 符号 组 成 一 个 意 群 的 同时 ， 这 些 意 
群 内 部 进行 计算 的 次 序 始终 是 未 定义 的 。 在 下 面 的 表达 式 里 : 


x= f()+ g() * hO); 


g0 和 hgO 的 返回 值 先 组 成 一 个 意 群 ， 执 行 乘法 运算 ， 但 g80 和 hO 的 调用 可 能 以 
任何 顺序 出 现 〈8g0O 的 调用 不 一 定 早 于 h0) 。 类 似 ，f 可 能 在 乘法 之 前 也 可 能 在 乘 
法 之 后 调用 ， 还 可 能 在 g&0 和 hO 之 间 调 用 。 唯 一 可 以 确定 的 就 是 乘法 会 在 加 法 之 前 
执行 《因为 乘法 的 结果 是 加 法 运算 的 操作 数 之 一 ) 。 如 果 编 写 程序 时 要 依赖 这 些 
意 群 计算 的 先后 次 序 ， 那 就 是 不 好 的 编程 风格 。 大 部 分 编程 语言 并 未 明确 规定 操 
作 数 计算 的 顺序 。 之 所 以 未 作 定义 ， 是 想 让 编译 器 充分 利用 自 喘 架构 的 特点 ， 或 
者 充分 利用 存储 于 寄存 器 中 的 值 。 


Pascal 在 使 用 布尔 操作 和 算术 操作 进行 混合 计算 时 ， 要 求 在 表达 式 里 加 上 显 
式 的 括号 ， 从 而 避免 了 这 方面 的 种 种 问题 。 有 些 专 家 建议 在 C 语 言 中 记 牢 两 个 优 
先 级 就 够 了 : 乘法 和 除法 先 于 加 法 和 减法 ， 在 涉及 其 他 的 操作 符 时 一 律 加 上 括 
号 。 我 认为 这 是 一 条 很 好 的 建议 。 


小 启发 
“结合 性 ”是 什么 意思 ? 


操作 运算) 符 的 优先 级 已 经 够 让 人 心烦 的 了 ， 许 多 人 对 操作 符 的 结合 性 同 
样 感到 困惑 。 在 标准 C 语 言 的 文档 里 ， 对 操作 符 的 结合 性 并 没有 作出 非常 清楚 的 


解释 。 本 栏目 将 向 你 解释 它 到 底 是 什么 以 及 你 什么 时 候 需 要 知道 它 。 可 以 获得 满 
分 的 回答 是 : 它 是 仲裁 者 ， 在 几 个 操作 符 具 有 相同 的 优先 级 时 决定 先 执行 哪 一 


这 


每 个 操作 符 拥 有 某 一 级 别 的 优先 级 ， 同 时 也 拥有 左 结合 性 或 右 结合 性 。 在 一 
个 不 含 插 写 的 表达 式 中 ， 优 先 级 决定 了 操作 数 之 间 的 “紧密 ”程度 。 例 如 ， 在 表达 
式 a * b+ cc 中， 乘法 运算 符 的 优先 级 高 于 加 法 运算 符 的 优先 级 ， 所 以 先 执 行 乘法 
a*b， 而 不 是 加 法 b + c。 


但 是 ， 许 多 操作 符 的 优先 级 是 相同 的 。 这 时 ， 操 作 符 的 结合 性 就 开始 发 挥 作 
用 了 。 在 表达 式 中 如 果 有 几 个 优先 级 相同 的 操作 符 ， 结 合 性 就 起 仲裁 的 作用 ， 由 
它 决 定 哪个 操作 符 先 执行 。 像 下 面 这 个 表达 式 : 


我 们 发 现 ， 这 个 表达 式 只 有 赋值 符 ， 这 样 优先 级 就 无 法 帮助 我 们 决定 先 执行 
哪个 操作 。 是 先 执行 b = c， 还 是 先 执行 a = b? 如 果 按 前 者 ，a 的 结果 为 2， 如 果 按 
后 者 ，a 的 结果 为 1。 


所 有 的 赋值 符 《〈 包 括 复合 赋值 符 ) 都 具有 右 结合 性 ， 就 是 说 表达 式 中 最 右边 
的 操作 最 先 执行 ， 然 后 从 右 到 左 依次 执行 。 这 样 ，c 先 赋值 给 b， 然 后 b 再 赋值 给 
a， 最 终 a 的 值 是 >。 类似 地 ， 具 有 左 结合 性 的 操作 符 〈( 如 位 操作 符 “&” 和 “|*) 则 是 
从 左 至 右 依 次 执行 。 


结合 性 只 用 于 表达 式 中 出 现 两 个 以 上 相同 优先 级 的 操作 符 的 情况 ， 用 于 消除 
歧义 。 事 实 上 ， 你 会 注意 到 所 有 优先 级 相同 的 操作 符 ， 它 们 的 结合 性 也 相同 。 这 
古 必 须 如 此 的 ， 否 则 结合 性 依然 无 法 消除 蚊 义 。 如 果 在 计算 表达 式 的 值 时 需要 考 
谍 结 合 性 ， 那 么 最 好 把 这 个 表达 式 一 分 为 二 或 者 使 用 括号 。 


在 C 语 言 中 ， 与 顺序 有 关 的 问题 ， 有 些 定义 得 很 好 ， 如 优先 级 和 结合 性 ;有 
些 则 定义 得 很 含糊 ， 如 大 部 分 表达 式 里 各 个 操作 数 计算 的 顺序 前面 一 节 已 经 讲 
述 ) 就 是 不 确定 的 ， 它 的 目的 是 为 了 让 编译 器 设计 者 选取 最 合适 的 方法 来 产生 最 
快 的 代码 。 我 们 之 所 以 说 “大 部 分 ”是 因为 条 些 操 作 符 如 && 和 || 等 ， 其 操作 数 的 计 
算 有 规定 的 顺序 。 这 两 个 操作 符 严 格 按照 从 左 到 右 的 顺序 依次 计算 两 个 操作 数 ， 
当 结 果 提 前 得 知 时 便 忽略 剩余 的 计算 。 但 是 ， 在 函数 调用 中 ， 各 个 参数 的 计算 顺 
序 是 不 确定 的 。 


2.3.3 ”早期 gets(0) 函 数 中 的 Bug 导 致 了 Internet 晴 虫 


C 语 言 的 问题 并 不 局 限于 语言 本 身 。 标 准 库 中 的 有 些 程序 也 具有 不 安全 的 语 
义 。1988 年 11 月 ， 蠕 虫 程序 入 侵 了 数 千 台 接 入 Internet 的 计算 机 ， 戏 剧 性 地 证 明了 
这 一 点 。 当 清除 蠕虫 并 完成 调查 后 ， 人 们 发 现 蠕虫 党 殖 的 途径 之 一 就 是 脆弱 的 
finger 防 护 进程 。 这 个 程序 对 于 当前 哪些 用 户 已 经 登录 的 询问 也 照 实 回答 。 这 个 称 
为 in.fingerd 的 finger 防 护 进 程 ， 使 用 了 标准 WO 库 函 数 gets()。 


gets0) 函 数 正式 的 任务 是 从 流 中 读 入 一 个 字符 串 。 它 的 调用 者 会 告诉 它 把 读 入 
的 字符 放 在 什么 地 方 。 但 是 ，gets0 函 数 并 不 检查 缓冲 区 的 空间 ， 事 实 上 它 也 无 法 
检查 缓冲 区 的 空间 。 如 果 函 数 的 调用 者 提供 了 一 个 指向 堆栈 的 指针 ， 并 且 getO 函 
数 读 入 的 字符 数量 超过 了 缓冲 区 的 空间 ，gets0 函 数 愉快 地 将 多 出 来 的 字符 继续 写 
入 到 堆栈 中 ， 这 就 覆盖 了 堆栈 原先 的 内 容 。finger 防 护 进 程 包 含 下 列 代码 : 


main(argc, argv) 
char *argv[]; 


char line[512]; 


gets(line); 


这 里 ，line 是 个 能 容纳 512 字 符 的 数组 ， 它 是 在 堆栈 上 自动 分 配 的 。 当 用 户 的 
输入 超过 了 finger 防 护 进 程 规定 的 512 字 符 时 ，gets() 函 数 将 会 继续 把 多 出 来 的 字符 


压 到 堆栈 中 。 


如 果 黑 客 想 通过 这 些 多 余 的 字符 来 改写 堆栈 中 某 个 项 目的 内 容 ( 并 波及 附近 
的 项 目 ) ， 绝 大 部 分 计算 机 架构 对 此 都 没有 什么 好 的 办 法 来 预防 。 如 果 在 每 次 访 
问 椎 栈 之 前 都 要 检查 其 大 小 和 访问 权限 ， 对 于 软件 来 说 代价 太 大 了 ， 根 本 不 可 
行 。 如 果 你 深 知 其 中 奥妙 ， 可 以 在 字符 串 实 参 中 设置 正确 的 二 进 制 模式 来 修改 推 
栈 中 的 过 程 活动 记录 ， 改 变 函 数 的 返回 地 址 。 结 果 ， 程 序 的 执行 流 就 不 会 返回 到 
函数 调用 点 的 位 置 ， 而 是 跳 转 到 一 个 特殊 的 指令 序列 (也 是 精心 布置 在 堆栈 中 
的 ) ， 它 将 调用 execv0 函 数 用 一 个 Shell 蔡 换 正在 运行 的 映像 程序 。 这 样 ， 现 在 就 
是 与 远程 机 器 上 的 Shell 对 话 ， 而 不 是 finger 防 护 进 程 。 你 可 以 发 布 命 令 ， 把 一 份 病 
毒 的 副本 传播 到 其 他 的 机 器 上 。 你 可 以 不 断 地 传播 病毒 ， 直 到 被 人 发 现 并 投入 监 
狱 。 图 2-1 展 示 了 这 个 过 程 。 


黑客 的 机 器 提供 finger 服务 的 machine2 


条 | 


向 machine2 的 finger 程序 发 送 1. finger 防护 程序 启动 
“非常 长 的 字符 串 ， 包 括 二 进 制 数据 ?” 2. 从 堆栈 中 gets( ) 它 的 参数 
3.“ 非 常 长 的 字符 串 ” 改 写 
返回 地 址 
4. 把 控制 流转 到 同样 位 于 堆 
栈 . 上 的 黑客 程序 
5. 用 Shell 取代 finger 进程 


图 2-1 Iternet 里 虫 如 何 获 得 远程 机 器 的 控制 特权 


具有 讽刺 意味 的 是 ，gets() 函 数 是 个 过 时 的 函数 ， 用 于 和 最 初版 本 的 可 移植 的 
WO 函数 库 保持 兼容 ， 并 已 在 十 多 年 前 被 标准 WO 库 函 数 所 取代 。 在 C 语 言 的 官方 手 
册 中 ， 强 烈 建议 用 fgets() 函 数 彻底 取代 gets() 函 数 。fgets() 函 数 对 读 入 的 字符 数 设 
置 了 一 个 限制 ， 这 样 就 不 会 超出 缓冲 区 范围 。 应 该 把 


gets(line); 


丛 换 成 : 


if(fgets(line, sizeof(line), stdin) == NULL) 
exit(1); 


现在 ， 函 数 只 能 接受 有 限 数量 的 字符 ， 而 不 会 超出 缓冲 区 的 范围 。 这 样 就 不 
会 由 于 其 他 人 运行 程序 而 履 盖 堆栈 中 的 重要 区 域 。 然 而 ，ANSI C 标 准 并 没有 将 
getsO 函 数 从 标准 中 拿 掉 。 所 以 ， 尽 管 对 于 这 个 特定 的 程序 来 说 是 安全 了 ， 但 隐藏 
在 C 语 言 中 的 问题 根源 却 没 有 真正 消除 。 


2.4 少 做 之 过 


属于 “ 少 做 之 过 ”的 特性 就 是 语言 应 该 提供 但 未 能 提供 的 特性 ， 如 标准 参数 处 
理 以 及 把 lint 程 序 错误 地 从 编译 器 中 分 离 出 来 。 


2.4.1 用 户 名 中 符 有 字母 f， 便 不 能 收 到 邮件 


这 个 Bug 报 告 非 常 令 人 困惑 。 它 声称 “如 果 用 户 名 的 第 二 个 字母 是 f， 该 用 户 就 
无 法 收 到 邮件 ”， 听 起 来 真是 难以 置信 。 不 能 收 到 邮件 跟 用 户 名 中 的 茶 个 字母 又 有 
什么 关系 呢 ? 无 论 如 何 ， 用 户 名 中 的 字母 与 邮件 传送 过 程 并 没有 什么 联系 啊 ! 然 
而 ， 这 个 问题 出 现在 许多 地 方 。 


经 过 一 番 紧 张 的 测试 后 ， 我 们 发 现 如 果 用 户 名 的 第 二 个 字母 是 f， 邮 件 确实 无 
法 发 送 到 他 们 那里 ! 就 是 说 ，Fred 和 Muffy 可 以 收 到 邮件 ， 但 Effie 却 无 法 收 到 。 对 
源 代码 进行 检查 后 ， 我 们 迅速 发 现 了 问题 所 在 。 


许多 人 对 ANSI C 采 用 argc、argv 的 约定 向 C 程 序 传递 参数 感到 惊奇 ， 但 事实 就 
是 如 此 。UNIX 的 约定 又 有 所 提升 ， 达 到 了 一 个 标准 的 层次 ， 但 此 时 却 成 了 这 个 
邮件 Bug 的 原因 之 一 。 这 个 mail 程 序 在 先前 的 版 本 中 被 修改 成 以 下 形式 : 


if(argv[argc-1][6] == 2-” || (argv[argc-2][1] == ’f’ )) 
readmail(argc, argv); 

else 
sendmail(argc, argVv); 


运行 mail 程 序 时 ， 它 既 可 以 发 送 邮件 ， 也 可 以 读 取 到 达 的 邮件 。 让 一 个 程序 
负责 两 项 截然 不 同 的 任务 有 何 意义 ， 我 们 和 暂时 不 必 细 究 。 这 段 代码 的 目的 是 : 碍 
看 参数 ， 根 据 它 的 内 容 决 定 到 底 是 读 取 邮件 还 是 发 送 邮 件 。 它 的 分 析 方 法 有 点 像 
试探 法 : 先 寻 找 能 确定 读 取 或 发 送 的 选项 开关 。 在 这 里 ， 如 果 最 后 一 个 参数 是 选 
项 开关 《也 就 是 以 一 个 连 字 符 开 头 ) ， 就 可 以 确定 是 读 取 邮件 。 如 果 最 后 一 个 参 


数 并 不 是 选项 开关 而 是 文件 名 ， 并 且 倒 数 第 二 个 参数 是 -f， 程 序 也 是 执行 读 取 邮 
件 的 操作 。 


这 就 是 程序 员 步 入 歧路 的 开始 ，C 语 言 中 支持 的 莉 乏 又 推 了 他 一 把 。 那 个 程 
序 员 只 是 看 了 一 下 倒数 第 二 个 选项 的 第 二 个 字符 ， 如 果 它 是 一 个 f， 他 就 是 认为 
mail 程 序 是 被 类 似 下 面 的 命令 所 调用 : 


mail -h -d -f /usr/linden/mymailbox 


在 绝 大 多 数 情 况 下 这 是 正确 的 ， 邮 件 可 以 从 mymailbox 中 读 取 。 但 也 有 可 能 
发 生 下 面 这 种 情况 : 


mail effie Robert 

在 这 种 情况 下 ，mail 程 序 的 参数 处 理 过 程 便 认为 应 该 读 取 邮件 而 不 是 发 送 。 
瞧 ! 发 送 到 第 二 个 字母 为 f 的 用 户 的 邮件 不 见 了 ! 要 修正 这 个 Bug 非 常 简 单 ， 当 仁 
看 倒数 第 二 个 参数 寻找 可 能 出 现 的 {时 ， 确 定 在 它 前 面 的 是 一 个 连 字 符 : 


if( argv[argc-1][6] == ”-” || 
argv[argc-2][6] == ’-’ && (argv[argc-2][1] == 2f” )) 
readmail(argc, argv); 


这 个 问题 是 由 于 对 参数 的 糟糕 解析 所 引起 的 ， 但 选项 开关 和 文件 名 之 间 分 类 
不 清 也 是 原因 之 一 。 许 多 操作 系统 (如 VAX/VMS) 能 够 在 程序 中 区 分 运行 时 选 
项 和 其 他 参数 〈 如 文件 名 ) ， 但 UNIX 却 不 能 ，ANSI C 也 不 能 


BE,.. 
软件 信条 


Shell 参 数 解 析 


不 充分 的 参数 解析 问题 出 现在 UNIX 的 许多 地 方 。 要 找 出 目录 中 的 哪些 文件 
是 链接 文件 ， 你 可 能 会 输入 下 面 的 命令 : 
siler | 


这 会 产生 一 条 错误 信息 “缺少 重 定 同 的 名 字 ”， 绝 大 多 数 人 很 快 就 能 明白 最 右 
边 的 那个 符号 被 Shell 翻 译 成 重 定 向 符 ， 而 不 是 作为 grep 程 序 的 参数 。 于 是 ， 他 们 
使 用 引号 把 它 括 起 来 ， 使 之 在 Shell 中 不 可 见 ， 如 下 : 


ls -1 | grep "->" 

还 是 不 行 ! grep 程 序 先 看 到 减 号 ， 然 后 把 整个 参数 翻译 为 大 于 号 的 一 种 未 知 
组 合 形式 ， 然 后 退出 。 要 解决 问题 ， 必 须 放弃 使 用 ls 命令 ， 改 用 : 
file -h * | grep link 


许多 人 都 有 以 下 的 痛苦 经 历 : 创建 一 个 文件 ， 文 件 名 以 连 字符 开头 ， 然 后 却 
发 现 无 法 用 rm 命令 把 连 字 符 去 挥 。 一 种 解决 方法 是 给 出 文件 的 完整 路 径 名 ， 这 样 
rm 就 不 会 把 连 字 符 当 作 选 项 开关 并 依 此 翻译 文件 名 了 。 


有 些 C 程 序 员 采用 了 一 种 约定 ， 即 带 “--” 的 参数 表示 “从 这 里 开始 ， 没 有 参数 
是 选项 开关 ， 即 使 它 是 以 连 字符 开头 ”。 一 种 更 好 的 解决 方法 是 把 包容 扔 给 系统 而 
不 是 用 户 ， 使 用 参数 处 理 器 把 参数 分 成 选项 开关 和 非 选 项 开关 两 种 。 目 前 这 种 简 
单 的 argv 机 制 由 于 使 用 得 太 广 ， 因 而 不 可 能 对 它 作 任何 修改 。 所 以 ， 请 记得 不 要 
在 1990 年 以 前 的 Berleley UNIX 上 向 Effie 发 送 邮件 哦 ! 


2.4.2 ”空格 最 后 的 领域 


许多 人 会 告诉 你 空格 在 C 语 言 中 没有 什么 意义 ， 只 要 你 喜欢 ， 随 便 多 输入 几 


个 或 者 少 输入 几 个 都 没有 关系 。 但 事实 并 非 如 此 ! 这 里 有 几 个 例子 ， 空 格 从 根本 
上 改变 了 程序 的 意思 或 程序 的 有 效 性 。 


。 “字符 可 用 于 对 一 些 字 符 进行 “ 转 义 ”， 包 括 newline (这 里 指 回 车 键 ) 。 被 转 
义 的 newline 在 逻辑 上 把 下 一 行当 作 当 前 行 的 延续 ， 它 可 用 于 连接 长 字符 串 。 
如 果 在 “和 回 车 键 之 间 不 小 心 留 上 一 两 个 空格 就 会 出 现 问 题 ，\newline 和 
mewline 就 不 一 样 。 这 个 错误 很 难 被 发 现 ， 因 为 你 是 在 寻找 某 种 无 形 的 东西 
(在 应 该 是 newline 的 地 方 出 现 了 一 个 空格 ， 注 意 newline 并 不 是 一 个 有 形 的 字 
符 ， 所 以 “后 面 有 没有 空格 在 实际 代码 中 根本 看 不 出 来 ) 。newline 在 典型 情 

况 下 用 于 转 义 连续 多 行 的 宏 定 义 。 如 果 你 的 编译 器 不 具备 出 类 拔 鞭 的 错误 处 

理 能 力 ， 最 好 还 是 放弃 这 种 用 法 。 转 义 newline 的 另 一 种 用 处 是 延续 一 个 字符 

串 第 量 ， 如 下 : 


char a[] = "Hi! How are you? I am quite a \ 
long string, folded onto 2 lines"; 


这 种 多 行 字 符 串 常量 的 问题 被 ANSI C 通 过 引入 相 邻 字符 串 常 量 自动 连接 的 约 
定 得 以 解决 。 但 正如 我 在 本 章 的 其 他 地 方 所 指出 的 那样 ， 这 个 方法 在 解决 一 个 问 
题 的 同时 又 引入 了 一 个 新 问题 。 


。 如 果 将 所 有 的 空格 都 弃 之 不 用 ， 也 会 陷入 麻烦 。 例 如 ， 你 明白 下 面 的 代码 是 


什么 意思 吗 ? 


Z = y+++X 


程序 员 的 意图 可 能 是 z = y + ++X， 但 也 可 能 是 z = y++ +X。ANSI C 规 定 了 一 
种 逐渐 为 人 所 熟知 的 “maximal munch strategy”( 最 大 一 口 策略 ) 。 这 种 策略 表 
示 ， 如 果 下 一 个 标记 有 超过 一 种 的 解释 方案 ， 编 译 器 将 选取 能 组 成 最 长 字符 序列 
的 方案 。 以 上 面 这 个 例子 为 例 ， 它 将 被 解析 为 z = y++ +X。 但 这 还 是 有 可 能 陷入 
矿 烦 ， 比 如 下 面 的 代码 : 


Z = y+++++Xj 


按照 前 面 的 策略 将 被 解析 为 z = y++ ++ +X， 这 将 引起 一 个 编译 错误 ， 错 误 信 
息 是 “++ 操 作 符 迷失 于 空格 间 ?。 即 使 编译 器 能 够 推 邮 〈 从 理论 上 说 ) 唯一 有 效 的 
编排 方式 是 z = y++ + ++x， 它 还 是 会 出 现 编译 错误 。 


。 第 三 个 跟 空格 有 关 的 问题 出 现在 当 程序 员 有 两 个 指向 int 的 指针 并 想 对 两 个 int 
数据 执行 除法 运算 时 。 代 码 如 下 : 


ratio = *x/*y; 


但 编译 器 会 给 出 一 条 错误 信息 ， 抱 怨 出 现 了 语法 错误 。 问 题 出 在 除法 运算 
符 “/ ”与 “操作 符 之 间 缺 少 空格 。 当 它们 紧 贴 在 一 起 时 被 编译 器 理解 成 注释 的 开 
始 部 分 ， 并 把 它 与 下 一 个 “*/”* 之 间 的 所 有 代码 都 变 成 注释 的 内 容 。 


与 错误 地 编写 了 一 个 注释 符号 相关 的 情况 是 : 打算 结束 注释 时 却 由 于 意外 未 
能 结束 。 有 一 种 ANSI C 编 译 器 的 茶 个 发 行 版 本 有 一 个 有 趣 的 Bug。 符 号 表 由 一 个 
散 列 函数 访问 ， 该 函数 计算 一 个 进行 一 系列 搜索 的 大 致 起 始 位 置 。 计 算 过 程 用 注 
释 的 形式 在 代码 中 出 现 ， 注 释 内 容 非常 详尽 ， 甚 至 提 到 了 提供 算法 的 书 名 。 不 境 
的 是 ， 该 程序 员 起 了 结束 注释 ， 导 致 整个 散 列 初始 值 计 算 过 程 也 成 了 注释 的 一 部 
分 ， 结 果 就 成 了 下 面 的 代码 。 你 应 该 马上 能 发 现 问 题 所 在 ， 并 知道 这 样 会 发 生 什 
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int hashval = 6; 

/* PJW hash function from "Compilers: Principles, Techniques, and Tools" 
* by Aho, Sethi, and Ullman, Second Edition. 

while(cp < bound) 


unsigned long overflow; 
hashval = (hashval << 4) + *cp++; 


if((overflow = hashval & (((unsigned long) 6xF) << 28)) != 6) 
hashval ^= overflow | (overflow >>24); 


hashval %= ST_HASHSIZE; /* 选 择 起 始 桶 */ 
/* 搜索 每 个 表 ， 这 次 搜索 名 字 。 如 果 失 败 ， 保 存 该 字符 串 
* 进 入 字符 串 的 指针 ， 然 后 返回 它 
*/ 
for(hp = &st_ihash; ;hp = hp->st_ hnext) { 
int probeval = hashval; /* 下 一 个 探测 值 */ 


初始 散 列 值 的 整个 计算 过 程 被 省 略 掉 了 ， 这 样 当 程序 对 符号 表 进 行 搜索 时 ， 
每 次 总 是 从 第 0 个 元 素 开始 进行 ! 结果 符号 表 搜 索 (编译 器 中 极为 常见 的 操作 )》 

比 它 预期 的 要 慢 得 多 。 这 个 问题 在 测试 过 程 中 从 未 被 发 现 过 ， 因 为 它 只 影响 搜索 
Ci 吉 果 。 这 就 是 有 些 编译 器 在 注释 字符 串 中 间 发 现 %/*” 会 发 出 警 
言 息 的 原因 。 这 个 错误 最 终 在 寻找 另 一 个 Bug 的 过 程 中 被 发 现 ， 在 适当 位 置 插 
es ee 15%! 


2.4.3 ”C++ 的 男 一 种 注释 形式 


C++ 并 未 对 C 的 绝 大 多 数 缺 陷 予 以 修正 ， 但 它 还 是 采用 了 一 种 方法 来 避免 这 
种 容易 发 生意 外 的 注释 形式 。 和 BCPL 一 样 ，C++ 引 入 了 /注释 符 ， 把 该 符号 以 后 
直至 行 末 的 内 容 均 作为 注释 内 容 。 


人 们 最 初 以 为 ”注释 符 不 会 改变 任何 语法 正确 的 C 代 码 。 令 人 慕 衣 的 是 ， 事 
实 并 非 如 此 。 


a //* 
//*/ b 


上 面 的 代码 在 C 语 言 中 表示 a/b， 但 在 C++ 语 言 中 表示 a。C 风 格 的 注释 在 
C++ 语言 中 依然 有 效 。 


2.4.4 ”编译 器 日 期 被 破坏 


在 C 语 言 中 ， 很 容易 写 出 一 些 能 够 轻松 通过 编译 ， 但 在 运行 时 却 产生 一 堆 垃 
圾 的 代码 。 本 贡 所 描述 的 Bug 就 是 一 个 非常 好 的 例子 。 在 任何 语言 中 ， 都 可 能 
现 这 样 情况 《比如 除数 为 零 ) ， 但 很 少 有 语言 能 像 C 语 言 那样 提供 如 此 丰富 而 意 
外 的 机 会 。 


Sun 的 Pascal 编 译 器 最 近 进 行 了 “国际 化 ”， 也 就 是 说 进行 了 改进 ， 使 之 能 够 按 


妇 当 地 的 日 期 格式 在 源 代码 列表 中 打印 日 期 (改进 的 成 果 之 一 ) 。 比 如 在 法 国 ， 
日 期 可 能 以 Lundi 6 Avril 1992 这 样 的 形式 出 现 。 该 编译 器 的 工作 过 程 如 下 : 编译 
器 首先 调用 stat0 得 到 UNIX 格 式 的 源 文件 修正 时 间 ， 然 后 调用 localtime0 将 其 转换 
为 tm 结构 ， 最 后 调用 strftime0 函 数 ， 把 tm 结构 转换 为 以 当地 日 期 格式 表示 的 
ASCII 字 符 串 。 
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令 人 不 快 的 是 ， 这 里 存在 一 个 Bug， 症 状 就 是 表示 日 期 的 字符 串 被 破坏 。 按 
忍 预想， 打印 出 的 日 期 应 该 如 下 : 


4 


lundi 6 Avril 1992 


但 结果 却 成 了 这 么 一 种 损坏 了 的 形式 : 


Lui*7&’? Y sxxdj @ ^F 


这 个 函数 仅 有 4 条 语句 ， 而 且 在 所 有 情况 下 传递 给 函数 的 参数 都 是 正确 的 。 
下 面 是 源 代码 ， 看 看 你 能 不 能 找 出 字符 串 破 坏 的 问题 所 在 。 


/* ”将 源 文件 的 timestamp 转 换 为 表示 当地 格式 日 期 的 字符 串 */ 
char * localized time(char * filename) 

{ 

struct tm *tm_ ptr; 

struct stat stat block; 

char buffer[128]; 


/* 获得 源 文件 的 timestamp， 格 式 为 time_t */ 
stat(filename, &stat block); 


/* 把 UNIX 的 time_t 转 换 为 tm 结构 ， 里 面 保存 当地 时 间 */ 
tm_ptr = localtime(&stat block.st mtime); 


/* 把 tm 结构 转换 成 以 当地 日 期 格式 表示 的 字符 串 */ 
strftime(buffer, sizeof(buffer), "%a %b %e %T %Y"，tm_ptr); 


return buffer; 


} 


时 间 到 ! 看 出 来 了 吗 ? 问题 就 出 现在 函数 的 最 后 一 行 ， 也 就 是 返回 buffer 的 那 
行 。buffer 是 一 个 自动 分 配 内 存 的 数组 ， 是 该 函数 的 局 部 变量 。 当 控制 流离 开 声明 


自动 变量 〈 即 局 部 变量 ) 的 范围 时 ， 上 自动 变量 便 自 动 失效 。 这 就 意味 着 即使 返回 
一 个 指向 局 部 变量 的 指针 《比如 此 例 ) ， 当 函数 结束 时 ， 由 于 该 变量 已 被 销毁 ， 
谁 也 不 知道 这 个 指针 所 指向 的 地 址 的 内 容 是 什么 。 


在 C 语 言 中 ， 自 劫 变量 在 堆栈 中 分 配 内 存 。 第 6 章 会 详细 讲述 这 方面 的 内 容 。 
当 包 含 自 劫 变量 的 函数 或 代码 块 退 出 时 ， 它 们 所 占用 的 内 存 便 被 回收 ， 它 们 的 内 
容 肯定 会 被 下 一 个 所 调用 的 函数 覆 新 。 这 一 切取 决 于 堆栈 中 先前 的 自动 变量 位 于 
何 处 、 活 动 函 数 声明 了 什么 变量 ， 以 及 写 入 了 什么 内 容 等。 原先 自动 变量 地 址 的 
内 容 既 可 能 被 立即 履 盖 ， 也 可 能 稍 后 才 被 禾 盖 ， 这 如 是 日 期 破坏 问题 难以 被 发 现 
的 原因 。 


解决 这 个 问题 有 几 种 方案 。 


1. 一 个 指向 字符 串 和 常量 的 指针 。 例 如 : 


char * func() { return ”Only works for simple strings”; } 


/* 只 适用 于 简单 的 字符 串 */ 


这 是 最 简单 的 解决 方案 ， 但 如 果 你 需要 计算 字符 串 的 内 容 ， 它 就 无 能 为 力 
了 ， 在 本 例 中 就 是 如 此 。 如 果 字 符 串 常量 存储 于 只 读 内 存 区 但 以 后 需要 改写 它 
时 ， 你 也 会 有 麻烦 。 


2. 使 用 全 局 声明 的 数组 。 例 如 : 


char *func() { 


my_global_array[i] = 


return my_golbal array; 


这 适用 于 自己 创建 字符 串 的 情况 ， 也 很 简单 易 用 。 它 的 缺点 在 于 任何 人 都 有 
在 任何 时 候 修改 这 个 全 局 数组 ， 而 且 该 函数 的 下 一 次 调用 也 会 履 盖 该 数组 的 


可 


亏 
中 加 


3. 使 用 静态 数组 。 例 如 : 


char * func() { 
static char buffer[20]; 


return buffer; 


这 就 可 以 防止 任何 人 修改 这 个 数组 。 只 有 拥有 指 癌 该 数组 的 指针 的 函数 通 
过 参数 传递 给 它 ) 才能 修改 这 个 静态 数组 。 但 是 ， 该 函数 的 下 一 次 调用 将 绑 辣 这 
个 数组 的 内 容 ， 所 以 调用 者 必须 在 此 之 前 使 用 或 备份 数组 的 内 容 。 与 全 局 数组 
样 ， 大 型 缓冲 区 如 果 朵 置 不 用 ， 是 非常 浪费 内 存 空间 的 。 


4， 显 式 分 配 一 些 内 存 ， 保 存 返回 的 值 。 例 如 : 


char * func() { 
char * s = malloc(120); 


return s; 


} 


这 个 方法 具有 静态 数组 的 优点 ， 而 且 在 每 次 调用 时 都 创建 一 个 新 的 缓冲 区 ， 
所 以 该 函数 以 后 的 调用 不 会 覆盖 以 前 的 返回 值 。 它 适用 于 多 线程 的 代码 〈 在 菜 一 
时 刻 具 有 一 个 以 上 的 活动 线程 的 程序 ) 。 它 的 缺点 在 于 程序 员 必 须 承担 内 存 管理 
的 贡 任 。 根 据 程 序 的 复杂 程度 ， 这 项 任务 可 能 很 容易 ， 也 可 能 很 复杂 。 如 果 内 存 
尚 在 使 用 就 释放 或 者 出 现 “ 内 存 泄漏 ”( 不 再 使 用 的 内 存 未 回收 ，， 就 会 产生 令 人 
难以 置信 的 Bug。 人 们 非常 容易 起 记 释放 已 分 配 的 内 存 。 


5. 也 许 最 好 的 解决 方案 就 是 要 求 调用 者 分 配 内 存 来 保存 函数 的 返回 值 。 为 
了 提高 安全 性 ， 调 用 者 应 该 同时 指定 绥 冲 区 的 大 小 束 像 标准 库 中 fgets() 函 数 所 
要 求 的 那样 ) 。 


void func( char * result, int size) { 


strncpy(result, "That’d be in the data segment, Bob", size); 


buffer = malloc(size); 
func(buffer, size); 


free(buffer); 


如 果 程 序 员 可 以 在 同一 代码 块 中 同时 进行 malloc 和 free 操 作 ， 内 存 管理 是 最 为 
轻松 的 。 这 个 解决 方案 就 可 以 实现 这 一 点 。 


为 了 避免 “日 期 破坏 问题， 注意 lint 程 序 会 对 下 面 这 种 最 简单 的 例子 发 出 警 


= 
启 : 


return local_array; 


警告 信息 是 “function returns pointer to antomatic”( 函 数 返 回 一 个 指向 自动 变 
量 的 指针 ) 。 然 而 ， 无 论 是 编译 器 还 是 lint 程 序 ， 都 无 法 检测 到 局 部 数组 返回 的 所 
有 情况 ( 它 有 可 能 通过 某 一 层 间 接 形 式 典 过 检查 〉。 


2.4.5 lint 程 序 绝 不 应 该 被 分 离 出 来 


你 会 注意 到 前 面 所 提 到 的 许多 程序 都 回荡 着 一 个 主题 : lint 程 序 能 够 检测 到 问 
题 ， 并 向 你 发 出 警告 。 在 编码 时 必须 极为 小 心 辟 桥 才 有 可 能 不 被 lint 程 序 所 警告 。 
如 果 lint 程 序 的 警告 信息 能 由 编译 器 自动 产生 ， 那 就 可 以 省 掉 很 多 麻烦 。 


在 UNIX 早 期 的 C 语 言 中 ， 语 言 设计 者 做 出 了 一 个 明确 的 决定 ， 即 把 编译 器 中 
所 有 的 语义 检查 措施 都 分 离 出 来 。 错 误 检查 由 一 个 单独 的 程序 完成 ， 这 个 程序 被 
称 为 lint。 在 省 掉 了 全 面 的 错误 检查 后 ， 编 译 器 可 以 做 得 更 小 、 更 快 而 且 更 简单 。 
不 管 怎 样 ， 编 译 器 对 于 程序 员 的 所 作 所 为 都 应 该 信任 ， 只 要 按照 他 的 指示 去 做 就 
是 了 。 对 不 对 ? 错 ! 


小 启发 
早 用 1lint 程 序 ， 勤 用 lint 程 序 


lint 程 序 是 软件 的 道德 准则 。 当 你 做 错 事 时 ， 它 会 告诉 你 哪里 不 对 。 应 该 始终 
使 用 lint 程 序 ， 按 照 它 的 道德 准则 办 事 。 


把 lint 程 序 从 编译 器 中 分 离 出 来 作为 一 个 独立 的 程序 是 一 个 严重 的 失误 ， 人 们 
直到 现在 才 意 识 到 这 个 问题 。 确 实 ， 把 lint 程 序 分 离 出 来 以 后 ， 编 译 器 变 得 更 小 ， 
目标 也 更 为 专 一 。 但 是 ， 它 所 付出 的 巨大 代价 是 ， 代 码 中 悄悄 混 进 了 大 量 的 Bug 
和 不 可 靠 的 编码 风格 。 许 多 (也 许 是 绝 大 多 数 ) 程序 员 缺 省 情况 下 在 每 次 编译 时 
并 不 使 用 lint 程 序 。 让 充满 Bug 的 代码 快速 通过 编译 实在 是 很 不 划算 。 现 在 ， 许 多 
lint 程 序 中 的 检查 措施 又 重新 出 现在 编译 器 中 。 


然而 ， 有 一 项 工作 在 lint 程 序 中 经 常 进行 ， 但 在 当前 绝 大 多 数 的 C 编 译 器 中 并 
不 进行 。 这 束 是 检查 各 个 文件 中 函数 使 用 的 一 致 性 。 许 多 人 认为 这 是 编译 器 的 缺 
陷 所 造成 的 ， 并 不 是 让 lint 程 序 独立 存在 的 理由 。 所 有 的 Ada 编 译 器 都 能 够 进行 这 
种 多 文件 间 的 一 致 性 检查 。 在 C 编 译 器 中 这 也 是 一 种 趋势 ， 或 许 它 最 终 能 够 成 为 C 
语言 的 一 项 正常 功能 。 


SunOS 的 lint party 


SunOS 开 发 小 组 有 理由 为 拥有 的 lint_clean〈 能 顺利 通过 lint 程 序 的 检查 ) 操作 
系统 内 核 而 感到 自豪 。 我 们 费 了 许多 心血 才 使 4.x 内 核 通过 lint 程 序 的 检查 而 未 出 


现任 何 警 告 信 息 ， 而 且 继续 保持 着 这 方面 的 成 就 。1991 年 ， 当 把 源 代 码 基 础 
(source base) 从 BSD UNIX 改 成 SVR4 时 继承 了 一 个 新 内 核 ， 我 们 不 知道 新 内 核 
中 是 否 经 过 lint 程 序 的 检查 。 结 果 ， 我 们 决定 用 lint 程 序 对 整个 SVR4 内 核 进行 仔细 
的 检查 。 


这 个 活动 持续 了 几 个 星期 ， 并 被 称 为 lint party。 它 的 成 果 是 12000 条 独特 的 
lint 程 序 警 告 信 息 ， 我 们 对 每 一 条 信息 都 认真 加 以 研究 ， 并 手工 修正 与 之 对 应 的 代 
码 问 题 。 最 后 ， 我 们 大 约 对 750 个 源 文 件 进 行 了 修改 ， 因 此 这 个 任务 又 被 称 为 "the 
lint merge from hell”( 地 狱 般 的 lint 考 验 ) 。 绝 大 多 数 lint 程 序 的 错误 信息 只 是 需要 
一 个 显 式 的 类 型 转换 或 lint 注 释 。 但 在 整个 过 程 中 ， 我 们 还 是 发 现 了 几 个 真正 严重 
的 Bug: 


。 实 参 的 类 型 在 函数 和 调用 之 间 发 生 了 转变 ; 


。 一 个 期 望 接受 3 个 参数 的 函数 实际 上 只 传递 给 它 一 个 参数 ， 该 函数 将 从 堆 
栈 中 再 抓 两 个 参数 。 找 出 这 个 Bug 后 解决 了 stream 子 系统 中 断断续续 的 数据 破 
坏 问 题 ; 


。 变量 在 设置 “初始 化 或 赋值 ) 前 使 用 。 


用 lint 程 序 彻 碍 内 核 的 价值 不 仅仅 在 于 去 除 现存 的 Bug， 而 且 能 防止 新 的 Bug 
污染 source base。 我 们 现在 要 求 对 源 代码 的 所 有 修改 或 增加 必须 能 通过 lint 和 cstyle 
程序 检查 ， 这 样 就 能 保持 内 核 的 lint-clean 状 态 。 采 用 这 种 方法 ， 不 仅 去 除了 现存 
的 Bug， 而 且 减 少 了 将 来 出 现 Bug 的 可 能 性 。 


有 些 程序 员 坚 决 反 对 将 lint 程 序 重 新 整合 到 编译 器 中 ， 他 们 认为 这 会 使 编译 髓 
的 速度 变 慢 ， 并 且 会 产生 太 多 的 虚假 警告 。 不 幸 的 是 ， 经 验 不 断 证 明 ， 把 lint 程 序 
作为 一 个 独立 的 工具 通常 意味 着 把 lint 程 序 束 之 高 阁 。 


软件 的 经 济 规律 显示 ， 越 是 在 开发 周期 的 早期 发 现 Bug， 修 复 它 所 付出 的 代 
价 就 越 小 。 所 以 让 lint 程 序 〈 如 果 是 编译 器 就 更 好 了 ) 取代 调试 器 来 执行 寻找 Bug 
的 额外 工作 是 一 笔 很 合算 的 投资 。 但 通过 调试 器 发 现 问题 又 比 内 部 测试 小 组 发 现 
问题 强 。 最 坏 的 结果 就 是 由 客户 发 现 问题 。 


2.5 ”轻松 一 下 一 一 有 些 特性 确实 就 是 Bug 


如 果 不 讲 完 太 空 任务 和 软件 的 故事 ， 本 章 就 不 能 说 是 完整 的 。 这 个 Fortran Do 
循环 的 故事 (在 本 章 开 始 部 分 讲述 ， 就 是 Mercury 子 轨道 飞行 系统 出 现 的 问题 ) 被 
频繁 地 与 Mariner 1 任务 错误 地 联系 在 一 起 。 


巧合 的 是 ，Mariner 1 也 跟 一 个 戏剧 性 的 软件 失败 有 关 ， 但 它 的 行为 大 不 相 
同 ， 而 且 跟 语言 的 选择 也 毫 无 关系 。Mariner 1 于 1962 年 7 月 发 射 ， 它 的 任务 是 将 
一 个 探测 器 放 在 金星 上 。 但 在 发 射 后 几 分 钟 ， 地 面 控制 中 心 就 不 得 不 将 它 拱 毁 ， 
因为 发 射 它 的 Atlas 火 箭 开 始 偏离 轨道 。 


经 过 几 个 星期 的 分 析 ， 问 题 被 确定 出 现在 软件 中 ， 但 它 是 一 个 算法 上 的 抄写 
错误 而 不 是 一 个 程序 Bug。 换 句 话 说， 程序 严格 按照 程序 员 的 设想 执行 ， 但 在 说 
明 书 上 ， 指 令 本 身 却 存在 错误 ! 按照 原先 的 设计 ， 这 个 跟踪 程序 应 该 对 平滑 《〈 平 
均 ) 速度 进行 操作 。 在 数学 中 ， 在 变量 符号 上 面 加 个 水 平 的 ” ”(bar) 符号 表示 
求 平均 ， 在 提供 给 程序 员 的 手写 制导 方程 式 中 ， 这 个 “” 写 不 小 心 被 漏 挥 了 。 


那个 程序 员 正 确 地 按照 算法 编写 了 程序 ， 并 使 用 了 从 雷达 指引 的 原始 速度 而 
不 是 平均 速度 。 结 果 ， 程 序 觉察 到 了 火箭 速度 的 微小 流动， 在 经 典 的 负 反 馈 循 环 
中 ， 它 试图 调整 火箭 的 速度 ， 但 在 这 个 过 程 中 却 出 现 了 真正 的 不 稳定 行为 。 这 个 
有 人 缺陷 的 程序 曾 用 于 以 前 的 几 个 任务 中 ， 但 这 个 程序 却 是 第 一 次 执行 。 在 以 前 的 
几 次 飞行 中 ， 火 箭 的 飞行 是 由 地 面 控 制 的 ， 但 在 这 一 次 ， 由 于 天 线 故障 ， 它 无 法 
接收 到 无 线 电 指令 ， 因 此 使 用 了 飞船 上 的 控制 软件 。 


深刻 教训 : 即使 可 以 保证 你 的 编程 语言 100% 可 靠 ， 你 仍然 可 能 成 为 算法 中 灾 
难 性 Bug 的 牺牲 品 。 


长 期 以 来 ， 我 们 一 直 感觉 工作 于 实时 控制 系统 的 程序 员 应 该 具有 首先 测试 操 
作 原 型 的 特权 。 换 名 话说 ， 如 果 你 的 代码 实现 了 飞船 的 生命 支持 系统 ， 那 么 你 应 


该 能 够 进入 太空 杀 目 调试 最 后 的 小 故障 。 这 显然 会 使 产品 的 质量 得 到 更 高 的 保 
障 。 表 2-3 显 示 了 一 些 机 会 。 


表 2-3 ”两 个 著名 的 太空 软件 失败 的 真 机 


TL 


时 间 任务 


无 ， 错 误 在 飞行 之 前 被 
1961 年 夏天 | Mercury | 把 “,” 误 写成 “.” 发 现 Fortran 语 言 中 的 缺陷 
yi 


1962 年 7 月 | Mariner | 在 说 明 书 中 ， 把 “% 误 |1200 万 美元 的 火箭 和 探 | 在 软件 说 明 书 上 存在 
22 日 1 测 器 被 毁 一 个 错误 


让 我 们 以 一 个 更 加 现代 的 太空 软件 的 不 地 故事 来 结束 本 章 ， 这 个 故事 听 上 去 
几乎 让 人 怀疑 是 假 的 。 在 每 个 飞船 任务 执行 前 ， 都 要 按照 货物 清单 对 起 飞 前 需要 
载 入 到 飞船 上 的 货物 进行 检查 。 清 单 上 列 出 了 每 个 货物 的 重量 ， 这 对 计算 燃料 和 
平衡 机 舱 非 党 重要。 在 飞船 进行 首次 飞行 之 前 ， 一 位 船坞 长 正在 核查 装 到 飞船 里 
的 物品 。 他 核 碍 了 计算 机 系统 ， 然 后 看 了 看 清单 中 的 软件 条 目 。 他 发 现 了 一 个 问 
题 ， 软 件 的 重量 是 零 ， 这 引起 了 一 阵 小 民 乱 一 一 无 论 如 何 ， 任 何 东 西 总 归 有 份量 
啊 ! 


在 问题 解决 之 前 ， 装 运 处 和 计算 机 中 心 有 过 一 番 激 烈 的 争论 。 最 后 这 个 零 重 
量 的 软件 (内 存 中 的 位 模式 〉 被 允许 入 舱 ! 当然 ， 任 何人 都 知道 从 相对 论 的 角度 
讲 ， 信 息 也 是 有 质量 的 ， 不 过 我 们 还 是 不 要 卖弄 学 问 来 破坏 这 个 有 趣 的 故事 吧 。 


[1] 这 个 故事 被 广泛 误 传 ， 在 许多 程序 设计 语言 的 教材 中 有 各 种 不 同 的 不 正确 版 
本 。 事 实 上 ， 它 已 经 成 了 程序 员 中 的 一 个 经 典 都 市 传奇 。 比 较 权 威 的 说 法 出 自 
Fred Webb， 他 当时 在 NASA 工 作 并 看 到 了 实际 的 源 代 码 。 具 体内 容 见 “Fortran 
Story 


The Real Scoop”， 摘 自 Forum on risks to the Public in Computers and 


Related Systems, 第 9 卷 ， 第 54 号 ，ACM 计 算 机 和 公共 政策 委员 会 ，1989 年 12 月 12 
日 。 


[2] Mercury 是 NASA 登 月 计划 3 个 阶段 中 的 第 一 个 ， 另 外 两 个 是 Gemini 和 
Apollo。 译 者 注 


[3] 你 可 能 会 奇怪 static 的 意义 会 相差 如 此 之 大 ， 如 果 你 知道 原因 ， 也 请 告诉 我 一 


二 Ex 


Pa 


第 3 草 ”分 析 C 语 言 的 声明 


“这 首 歌 的 名 字 叫 作 《 哈 道 元 的 眼睛 》 (Haddocks’Eyes) 。” 
“ 哦 ， 歌 的 名 字 是 这 样 ， 真 的 ? ”爱丽 丝 说 道 ， 想 表现 出 一 点 兴趣 。 


“不 ， 你 并 不 明白 ，” 骑 士 说 道 ， 看 上 去 有 些 慢 怒 ,，“ 这 是 人 们 对 它 的 名 字 的 称 
它 真 正 的 名 字 是 “很 老 很 老 的 男人 (The Aged Aged Man) 。” 


呼 


>- 


“那么 我 是 不 是 该 说 ' 那 首 歌 是 这 样 称 呼 的 '? ”爱丽 丝 纠 正 自 己 的 说 法 。 


“不 ， 不 是 这 样 ， 这 是 另外 一 码 事 ! 这 首 歌 被 称 作 《手段 和 方法 》 (Ways and 
Means) ， 但 这 只 是 它 被 称 作 那样 而 已 ， 你 明白 吗 ? ” 


“好 了 ， 那 么 这 首 歌 到 底 是 什么 ? ”爱丽 丝 说 道 ， 此 时 她 已 经 被 完全 摘 糊 涂 


“我 正 要 说 到 它 ，” 骑 士 说 道 ,“ 这 首 歌 实际 上 是 ' 围 坐 门 边 ?(A-sitting On A 
Gate) ， 调 子 是 我 自己 创作 的 。” 


一 一 Lewis Carroll, Through the Looking Glass 


传说 ， 维 多 利 亚 女 王 对 《爱丽 丝 漫 游 奇 境 记 》 极 为 着 迷 ， 于 是 她 要 求 得 到 
Lewis Carroll 的 其 他 著作 。 女 王 并 不 知道 Lewis Carroll 是 牛津 大 学 数学 教授 Charles 
Dodgson 的 笔名 。 当 献 媚 的 宫廷 侍 臣 为 她 献上 几 本 大 部 头 书后 〈 包 括 The 
Condensation(Factoring)of Determinants) ， 女 王 陛下 未 能 从 书 中 寻找 到 乐趣 。 这 
个 故事 在 维多利亚 时 期 流传 很 广 ，Dodgson 竭 力 对 此 进行 否认 ; 


我 想 借 这 个 机 会 ， 面 对 我 所 能 接触 的 公众 ， 对 这 个 愚蠢 的 故事 进行 驳斥 。 许 


多 媒体 都 盛传 这 个 故事 ， 说 我 将 几 本 书 呈 献 给 了 尊贵 的 女王 陛下 。 这 个 纯 属 子 虚 
乌有 的 故事 已 经 被 重复 了 太 多 次 。 我 想 我 应 该 只 此 一 次 地 郑重 声明 ， 这 个 故事 从 
头 到 尾 都 是 假 的 ， 即 使 与 传说 相似 的 情况 也 不 曾 发 生 过 。 


一 一 Charles Dodgson, Symbolic Logic, Second Edition 


我 想 ， 从 他 过 上 度 敏 感 的 反应 来 看 ， 我 们 可 以 合理 地 推断 这 个 故事 在 历史 上 确 
有 其 事 。 无 论 如 何 ，Dodgson 如 果 想 掌握 C 语 言 应 该 是 很 容易 的 ， 而 女王 陛下 则 要 
困难 一 些 。 我 把 本 章 引 语 部 分 的 一 些 关 键 词 列 于 表 中 ， 如 下 所 示 : 


被 称 作 是 
歌 的 名 字 Haddocks’Eyes The Aged Aged Man 
歌 Ways and Means A-sitting On A Gate 


确实 ，Dodgson 如 果 研 究 计算 机 科学 肯定 能 成 为 个 中 高 手 ， 而 且 他 肯定 特别 
擅长 于 编程 语言 中 的 类 型 模型 (type model) 。 人 例如， 下面 的 C 语 言 声明 : 


typedef char * string; 
string punchline = "I’m a frayed knot"; 


按照 骑士 的 思维 方式 ， 他 会 这 样 进行 理解 : 


被 称 作 


Pt 


变量 的 类 型 string char * 


变量 punchline Lm a frayed knot 


得 他 的 直觉 非常 惊人 ? 好 了 ， 事 实 上 这 里 涉及 好 多 知识 。 当 阅读 
切 都 会 变 得 明了 。 


3.1 只 有 编译 事 才 会 暑 欢 的 语法 


Kernighan 和 Ritchie 承 认 , “C 语 言 声明 的 语法 有 时 会 带 来 严重 的 问 

题 ”(K&RH， 第 二 版 ， 第 122 页 ) 。C 语 言 声明 的 语法 对 于 编译 器 (或 编译 器 设 
计 者 ) 的 处 理 来 说 并 不 是 什么 大 不 了 的 事 。 但 对 于 一 般 的 程序 员 却 会 成 为 障碍 。 
语言 的 设计 者 也 是 人 ， 他 们 也 会 犯错 误 。 例 如 ，Ada 的 语言 参考 手册 在 最 后 的 附 
录 所 附 的 Ada 语 法 手册 中 ， 有 一 处 存在 歧义 。 对 于 编程 语言 的 语法 来 说 ， 歧 义 是 
非常 忌讳 的 ， 因 为 它 使 编译 器 设计 者 的 工作 严重 复杂 化 。 但 C 语 言 声 明 的 语法 确 
实 非常 可 怕 ， 渗 透 于 整个 语言 使 用 的 方方面面 。 毫 不 夸张 地 说 ， 正 是 由 于 在 组 合 
类 型 方面 的 笨拙 行为 ，C 语 言 被 显著 且 毫 无 必要 地 复杂 化 了 。 


C 语 言 的 声明 模型 之 所 以 如 此 了 星 涩 ， 这 里 有 几 个 原因 。20 世 纪 60 年 代 晚 期 ， 
人 们 在 设计 C 语 言 的 这 部 分 内 容 时 , “类 型 模型 ”(type model) 这 个 概念 对 于 当时 
的 编程 语言 理论 而 言 尚 属 陌生 。BCPL 语 言 〈《C 语 言 的 祖先 ) 几乎 没有 类 型 ， 它 把 
二 进 制 字 作为 唯一 的 数据 类 型 ， 所 以 C 语 言 先 天 有 缺 。 然 后 出 现 了 一 种 C 语 言 设 计 
哲学 ， 要 求 对 象 的 声明 形式 与 它 的 使 用 形式 尽 可 能 相似 。 一 个 int 类 型 的 指针 数组 
被 声明 为 int *p[3]; 并 以 *p 咎 这 样 的 表达 式 引 用 或 使 用 指针 所 指 癌 的 int 数 据 ， 所 以 
它 的 声明 形式 和 使 用 形式 非常 相似 。 这 种 做 法 的 好 处 是 各 种 不 同 操 作 符 的 优先 级 
在 “声明 ”和 “使 用 ”时 是 一 样 的 。 它 的 缺点 在 于 操作 符 的 优先 级 (有 15 级 或 更 多 ， 
取决 于 你 怎么 算 ) 是 C 语 言 中 另外 一 个 设计 不 当 、 过 于 复杂 之 处 。 程 序 员 需 要 记 
住 特 殊 的 规则 才能 推断 出 int *p[3] 到 底 是 一 个 int 类 型 的 指针 数组 ， 还 是 一 个 指 癌 
int 数 组 的 指针 。 


“声明 的 形式 和 使 用 的 形式 相似 ”这 种 用 法 可 能 是 C 语 言 的 独创 ， 其 他 语言 并 
没有 采取 这 种 方法 。 而 且 ,“ 声 明 的 形式 和 使 用 的 形式 相似 ?即使 在 当时 也 不 像 是 
一 个 特别 好 的 主意 。 把 两 种 截然 不 同 的 东西 做 成 同一 个 样子 真 的 有 什么 重要 意义 
吗 ? 贝尔 实验 室 的 学 究 们 也 承认 此 批评 有 理 ， 但 他 们 坚决 死 打 原来 的 决定 ， 至 今 
依然 。 一 个 比较 好 的 声明 指针 的 方法 是 : 


int &p; 


它 至 少 能 提示 p 是 一 个 整 型 数 的 地 址 。 这 种 语法 现 已 被 C++ 采纳 ， 用 于 表示 参 
数 的 传 址 调用 。 


C 语 言 的 声明 所 存在 的 最 大 问题 是 ， 你 无 法 以 一 种 人 们 所 习惯 的 自然 方式 从 
左 向 右 阅 读 一 个 声明 ， 在 ANSI C 引 入 volatile 和 const 关 键 字 后 ， 情 况 就 更 糟糕 了 。 
由 于 这 些 关 键 字 只 能 出 现在 声明 中 《而 不 是 使 用 中 ) ， 这 就 使 得 现今 声明 形式 和 
使 用 形式 能 完全 对 得 上 写 的 例子 越 来 越 省 了。 那些 从 风格 上 看 像 是 声明 ， 但 却 没 
有 标识 符 的 东西 (如 形式 参数 声明 和 强制 类 型 转换 ) 看 上 去 显得 滑稽 。 如 果 想 要 
把 什么 东西 的 类 型 强制 转换 为 指向 数组 的 指针 ， 就 不 得 不 使 用 下 面 的 语句 来 表示 


这 个 强制 类 型 转换 : 


char (*j)[28]; /* j 是 一 个 指向 数组 的 指针 ， 数 组 内 有 26 个 char 元 素 */ 
j = (char (*)[26]) malloc(26); 


如 果 把 星 号 两 边 看 上 去 明显 多 余 的 括号 拿 掉 ， 代 码 会 变 成 非法 的 。 


涉及 指针 和 const 的 声明 可 能 会 出 现 几 种 不 同 的 顺序 : 


const int * grape; 
int const * grape; 
int * const grape jelly; 


在 最 后 一 种 情况 下 ， 指 针 是 只 读 的 ;而 在 另外 两 种 情况 下 ， 指 针 所 指向 的 对 
象 是 只 读 的 。 当 然 ， 对 象 和 指针 有 可 能 都 是 只 读 的 ， 下 面 两 种 声明 方法 都 能 做 到 
一 点 : 


const int * const grape_ jam; 
int const * const grape jam; 


ANSI C 提 到 ，typedef 说 明 符 之 所 以 被 称 为 “存储 类 型 说 明 符 ”， 只 是 为 了 语法 
上 的 方便 而 已 ， 它 也 不 否认 其 中 存在 一 些 另 外 的 问题 。 即 使 是 经 验 丰 富 的 C 程 序 
员 也 都 觉得 这 里 麻烦 多 多 。 如 果 像 “指向 数组 的 指针 ”这 样 概念 清晰 的 语法 ， 它 的 


[ey 


声明 形式 也 是 如 此 上 隐 涩 难 懂 ， 那 么 对 于 更 复杂 的 语法 形式 又 将 如 何 。 例 如 ， 你 明 
白 下 面 的 声明 〈 取 自 telnet 程 序 ) 的 确切 意思 吗 ? 


char * const *(*next)(); 


我 将 在 本 章 的 后 面 把 这 个 声明 作为 实例 讨论 时 再 给 出 它 的 答案 。 多 年 来 ， 程 
序 员 、 学 生 和 教师 都 在 努力 寻找 一 种 更 好 的 记忆 方法 和 法 则 来 搞 清 楚 C 语 言 声明 
的 语法 。 本 章 提 供 了 一 种 方法 ， 它 采用 一 种 循序 渐进 的 方式 来 解决 这 个 问题 。 用 


它 操纵 几 个 实例 后 ， 束 不 会 再 被 C 语 言 的 声明 所 困扰 了 。 


3.2 ”声明 是 如 何 形成 的 


让 我 们 先 来 看 一 些 C 语 言 的 术语 以 及 一 些 能 组 合成 一 个 声明 的 单独 语法 成 
分 。 其 中 一 个 非常 重要 的 成 分 就 是 声明 器 〈declarator) 一 一 它 是 所 有 声明 的 核 
心 。 简 单 地 说 ， 声 明 器 就 是 标识 符 以 及 与 它 组 合 在 一 起 的 任何 指针 、 函 数 括号 、 
数组 下 标 等 ， 如 表 3-1 所 示 。 方 便 起 见 ， 我 们 把 初始 化 内 容 (initializer〉 也 放 到 里 
面 ， 并 分 类 表示 。 


表 3-1 C 语 言 中 的 声明 器 (declarator) 


数量 C 语 言 中 的 名 字 C 语 言 中 出 现 的 形式 


下 列 形式 之 一 : 
* const volatile 
* volatile 


零 个 或 多 个 指针 


米 


* const 


* volatile const 


标识 符 
或 : 标识 符 [下 标 ] 
或 : 标识 符 〈 参 数 ) 
或 : 〈 声 明 嚣 ) 


有 且 只 有 一 个 直接 声明 器 


零 个 或 一 个 初始 化 内 容 = 初始 值 


一 个 声明 由 表 3-2 所 示 的 各 个 部 分 组 成 (并 非 所 有 的 组 合 形 式 都 是 合法 的 ， 但 
这 个 表 描 述 了 我 们 进一步 讨论 所 要 用 到 的 词汇 ) 。 声 明确 定 了 变量 的 基本 类 型 以 
及 初始 值 《 如 果 有 的 话 ) 。 


表 3-2 C 语 言 中 的 声明 


C 语 言 中 的 名 字 C 语 言 中 出 现 的 形 


类 型 说 明 符 


(type-specifier) void char short int long signed 
pn float double 


结构 说 明 符 (struct\_specifier) 


至 少 一 个 类 型 说 明 符 枚 举 说 明 符 (enum\ specifier) 
(并 非 所 有 组 合 都 合法 ) 合 说 明 符 (union\ specifier) 


存储 类 型 extern static register 
(storage-class) auto typedef 

类 型 限定 符 const volatile 
(type-qualifier ) 


声明 器 (declarator) 参见 上 面 的 定义 
更 多 的 声明 器 ,声明 器 


分 号 


证 我 们 看 一 下 如 果 你 使 用 这 些 部 件 来 构造 一 个 声明 ， 情 况 能 够 复杂 到 什么 程 
度 。 同 时 要 记 住 ， 在 合法 的 声明 中 存在 限制 条 件 。 你 不 可 以 像 下 面 这 样 做 : 


。 函数 的 返回 值 不 能 是 一 个 函数 ， 所 以 像 fo000 这 样 是 非法 的 ; 
。 函数 的 返回 值 不 能 是 一 个 数组 ， 所 以 像 foo0UD 这 样 是 非法 的 ; 
。 数组 里 面 不 能 有 函数 ， 所 以 像 foo 这 样 是 非法 的 。 


但 像 下 面 这 样 则 是 合法 的 : 


。 函数 的 返回 值 多 许 是 一 个 函数 指针 ， 如 int(* fun())0O; 

。 函数 的 返回 值 多 许 是 一 个 指 回 数 组 的 指针 ， 如 int(* foo0O)[D]; 
。 数组 里 面 多 许 有 函数 指针 ， 如 int (* foo[])0; 

。 数组 里 面 人 多 许 有 其 他 数组 ， 所 以 你 经 常 能 看 到 int foo[][]。 


在 处 理 组 合 类 型 之 前 ， 让 我 们 先 讨论 一 下 在 结构 〈struct) 和 联合 (union) 
中 怎样 对 变量 进行 组 合 ， 借 此 刷新 一 下 上 自己 的 记忆 ， 同 时 回顾 一 下 枚 举 
(enum) 。 


3.2.1 关于 结构 


结构 就 是 一 种 把 一 些 数据 项 组 合 在 一 起 的 数据 结构 。 其 他 编程 语言 把 它 称 为 
记录 (record) 。 结 构 的 语法 很 容易 记忆 。 在 C 语 言 中 ， 进 行 组 合 的 通常 方法 就 是 
把 需要 组 合 的 东西 放 在 花 括 号 里 面 : { 内 容 .…}。 关 键 字 struct 放 在 左 花 括号 前 面 ， 
以 便 编 译 器 能 够 从 程序 块 中 认 出 它 : 


struct { 内 容 ... } 


结构 的 内 容 可 以 是 任何 其 他 数据 声明 : 单个 数据 项 、 数 组 、 其 他 结构 、 指 针 
等 。 我 们 可 以 在 结构 的 定义 后 面 跟 一 些 变 量 名 ， 表 示 这 些 变 量 的 类 型 是 这 个 结 
构 。 例 如 : 


struct { 内 容 ... } plum，pomegranate，pear; 


另外 还 需要 注意 的 一 点 是 ， 可 以 在 struct 关 键 字 后 面 加 一 个 可 选 的 “结构 标签 ”: 


struct fruit tag { 内 容 ... } plum，pomegranate，pear; 


这 样 ， 我 们 就 可 以 在 将 来 的 声明 中 用 struct fruit_tag 作 为 struct { 内 容 .…. } 的 简 
Ss 


因此 ， 结 构 的 通常 形式 是 : 


struct 结构 标签 (可 选 ) { 
类 型 1 标识 符 1; 
类 型 2 标识 符 2; 


类 型 N 标识 符 N; 
} 变 量 定义 《可 选 ) ; 


所 以 ， 在 下 面 的 声明 中 : 


struct date tag{ short dd, mm, yy; }my_birthday,xmas; 
struct date tag easter, groundhog day; 


变量 my_birthday、xmas、easter 和 groundhog_day 属 于 相同 的 数据 类 型 。 结 构 
中 也 允许 存在 位 段 、 无 名 字段 以 及 字 对 齐 所 需 的 填充 字段 。 这 些 都 是 通过 在 字段 


的 声明 后 面 加 一 个 冒号 以 及 一 个 表示 字段 位 长 的 整数 来 实现 的 。 


/* 处 理 ID 信 息 */ 


struct pid tag { 


unsigned int inactive : 1; 

unsigned int a /* 1 个 位 的 填充 */ 
unsigned int refcount : 6; 

unsigned int : @; /* 填充 到 下 一 个 字 边 界 */ 


short pid id; 
struct pid tag *1link; 


这 种 用 法 通常 被 称 作 “ 深 入 逻辑 元 件 的 编程 "， 你 可 以 在 系统 编程 中 看 到 它 
们 。 它 也 能 用 于 把 一 个 布尔 标志 以 位 而 不 是 字符 来 表示 。 位 段 的 类 型 必须 是 int、 
unsigned int 或 signed int (或 加 上 限定 符 ) 。 至 于 int 位 段 的 值 是 否 可 以 取 负 值 则 取 
决 于 编译 器 。 


我 不 喜欢 把 结构 的 声明 和 变量 的 定义 混合 在 一 起 。 我 更 喜欢 采用 : 


struct veg { int weight, price per lb; }; 
struct veg onion, radish, turnip; 
而 不 是 : 
struct veg { int weight, price per lb; } onion, radish, turnip; 


确实 ， 后 面 一 种 方法 可 以 少 打 几 个 字 ， 但 我 们 应 该 更 关心 代码 是 否 容易 阅 
读 ， 而 不 是 是 否 容易 书写 。 我 们 只 编写 一 次 代码 ， 但 在 以 后 的 程序 维护 过 程 中 将 
多 次 阅读 这 些 代码 。 如 果 一 行 代码 只 做 一 件 事 ， 看 上 去 会 更 简单 一 些 。 基 于 这 个 
理由 ， 变 量 的 声明 应 该 与 类 型 的 声明 分 开 。 


最 后 ， 还 有 两 个 跟 结 构 有 关 的 参数 传递 问题 。 有 些 C 语 言 图 书 声称 “在 调用 函 
数 时 ， 参 数 按照 从 右 到 左 的 次 序 压 到 椎 栈 里 ”。 这 种 说 法 过 于 简单 了 。 如 果 你 有 一 
本 这 样 的 书 ， 把 那 一 页 撕 下 烧 掉 。 如 果 你 有 一 个 这 样 的 编译 器 ， 把 该 编译 器 源 代 
码 的 那 几 行 删 掉 。 参 数 在 传递 时 首先 尽 可 能 地 存放 到 寄存 器 中 《追求 速度 ) 。 注 


意 ，int 型 变量 ji 跟 只 包含 一 个 int 型 成 员 的 结构 变量 s 在 参数 传递 时 的 方式 可 能 完 
不 同 。 一 个 int 型 参数 一 般 会 被 传递 到 寄存 器 中 ， 而 结构 参数 则 很 可 能 被 传递 到 堆 
栈 中 。 需 要 注意 的 第 二 点 是 ， 在 结构 中 放置 数组 ， 如 : 


/* 数组 位 于 结构 内 部 */ 
struct s tag { int a[166]; }; 


现在 ， 你 可 以 把 数组 当 作 第 一 等 级 的 类 型 ， 用 赋值 语句 复制 整个 数组 ， 以 传 
值 调 用 的 方式 把 它 传递 到 函数 ， 或 者 把 它 作 为 函数 的 返回 类 型 。 


struct s tag { int a[166]; }; 

struct s tag orange, lime, lemon; 

struct s tag twofold(struct s tag s) { 
int j; 
for( j = 68; j < 160; j++) s.a[j] *= 2; 
return s; 


} 


main() { 
int i; 
for(i = 6j i < 166; i++) lime.a[i] = 1; 
lemon = twofold(lime); 
orange = lemon; /* 给 整个 结构 赋值 */ 


在 典型 情况 下 ， 并 不 会 频繁 地 对 整个 数组 进行 赋值 操作 。 但 是 如 果 需 要 这 样 
做 ， 可 以 通过 把 它 放 入 结构 中 来 实现 。 本 小 节 的 最 后 将 展示 在 结构 中 包含 一 个 指 
加 结构 本 身 的 指针 ， 这 种 方法 利用 于 列表 (list) 、 树 〈tree) 以 及 许多 其 他 动态 
数据 结构 。 


/* 结构 内 部 有 一 个 指向 结构 自身 的 指针 */ 
struct node tag{ int datum; 
struct node tag *next; 


struct node tag a, b; 


a.next = &b; /* ab 链接 在 一 起 */ 
a.next->next = NULL 


3.2.2 关于 联合 


联合 (union) 在 许多 其 他 语言 中 被 称 作 变 体 记录 (variant record) 。 它 的 外 
表 与 结构 相似 ， 但 在 内 存 布局 上 存在 关键 性 的 区 别 。 在 结构 中 ， 每 个 成 员 依次 存 
储 ; 而 在 联合 中 ， 所 有 的 成 员 都 从 偏 移 地 址 零 开 始 存储 。 这 样 ， 每 个 成 员 的 位 置 
都 重 登 在 一 起 : 在 某 一 时 刻 ， 只 有 一 个 成 员 真正 存储 于 该 地 址 。 


联合 既 有 一 些 优点 ， 也 有 一 些 缺 点 。 它 的 缺点 就 是 那些 所 谓 的 优点 其 实 并 不 
怎么 出 色 。 联 合 的 优点 是 它 的 外 观 同 结构 一 样 ， 只 是 用 关键 字 union 取 代 了 关键 字 
struct。 所 以 ， 如 果 你 对 结构 的 一 切 都 已 了 如 指 掌 ， 基 本 上 也 就 掌握 了 联合 。 联 合 
的 一 般 形 式 如 下 : 


union 可 选 的 标签 { 
类 型 1 标识 符 1; 
类 型 2 标识 符 2; 


类 型 N “标识 符 N; 
} 可 选 的 变量 定义 ， 


联合 一 般 是 作为 大 型 结构 的 一 部 分 存在 的 。 在 有 些 大 型 结构 中 ， 存 在 一 些 与 
实际 表示 的 数据 类 型 有 关 的 隐 式 或 显 式 的 信息 。 如 果 存 储 数 据 时 是 一 种 类 型 ， 但 
在 提取 该 数据 时 却 成 了 另外 一 种 类 型 ， 这 显然 存在 着 明显 的 类 型 不 安全 性 。 在 
Ada 中 ， 上 所 有 不 同类 型 的 字段 都 显 式 地 存储 于 记录 中 ， 这 就 避免 了 这 个 问题 。C 语 
言 则 含糊 得 多 ， 让 程序 员 自 己 去 回忆 放 在 那儿 的 究竟 是 什么 东西 。 


联合 一 般 被 用 来 节省 空间 ， 因 为 有 些 数 据 项 是 不 可 能 同时 出 现 的 。 如 果 同 时 
存储 它们 ， 显 然 顾 为 浪费 。 例 如 ， 如 果 我 们 要 存储 一 些 关 于 动物 种 类 的 信息 ， 首 
先 想 到 的 方法 可 能 是 : 


struct creature{ 

char has_backbone; 

char has_fur; 

short num of legs_ in excess of 4; 


}; 


但 是 ， 我 们 知道 ， 所 有 的 动物 要 么 是 消 椎 动物 ， 要 么 是 无 宵 椎 动物 。 进 而 ， 
我 们 还 知道 只 有 浓 椎 动物 才 可 能 有 毛皮 ， 只 有 无 疹 椎 动物 才 可 能 有 4 条 以 上 的 


腿 。 没 有 一 种 动物 既 有 毛皮 又 有 4 条 以 上 的 腿 。 这 样 ， 可 以 通过 把 两 个 相互 排斥 
的 字段 存储 于 一 个 联合 中 来 节省 空间 : 


union secondary characteristics{ 
char has_fur; 
short num of legs_ in excess of 4; 


2 
struct creature { 
char has_backbone; 
union secondary characteristics form; 


}; 


我 们 通常 采取 这 种 方式 来 节省 备用 的 存储 空间 。 如 果 我 们 有 一 个 数据 文件 ， 
里 面 存储 了 20000000 个 动物 ， 使 用 这 种 方法 ， 可 以 节省 大 约 20MB 的 磁盘 空间 。 


然而 ， 联 合 还 有 其 他 用 途 。 联 合 也 可 以 把 同一 个 数据 解释 成 两 种 不 同 的 东 
西 ， 而 不 是 把 两 个 不 同 的 数据 解释 为 同一 种 东西 。 非 常 有 意思 的 是 ， 这 种 功能 跟 
COBOL 中 的 REDEFINES 子 名 一模一样 。 该 用 法 的 例子 如 下 : 


union bits32 tag{ 
int whole; /* 一 个 32 位 的 值 */ 


struct { char ce, c1, c2, c3; } byte; /* 4 个 8 位 的 字 节 */ 
} value; 


这 个 联合 允许 程序 员 既 可 以 提取 整个 32 位 值 〈 作 为 int) ， 也 可 以 提取 单独 的 
字 节 字段 ， 如 value.byte.c0 等 。 采 用 其 他 的 方法 也 能 达到 这 个 目的 ， 但 联合 不 需要 
额外 的 赋值 或 强制 类 型 转换 。 为 了 找 乐 ， 我 查看 了 150000 行 与 机 器 无 关 的 操作 系 
统 源 代码 。 结 果 显 示 ， 结 构 出 现 的 次 数 大 约 是 联合 的 100 倍 。 这 说 明 在 实际 工作 
中 ， 你 遇见 结构 的 次 数 将 远 远 多 于 联合 。 


3.2.3 ”关于 枚 举 


枚 举 enum) 通过 一 种 简单 的 途径 ， 把 一 串 名 字 与 一 品 整 型 值 联系 在 一 起 。 
对 于 像 C 这 样 的 弱 类 型 语言 而 言 ， 很 少 有 什么 事 只 能 靠 枚 举 来 完成 而 不 能 
fdefine 来 解决 。 所 以 ， 在 大 多 数 早期 的 K&R C 编 译 器 中 ， 都 省 掉 了 枚 举 。 但 是 改 


举 在 其 他 大 多 数 语言 中 都 存在 ， 所 以 C 语 言 最 终 也 实现 了 它 。 现 在 ， 对 于 枚 举 的 


enum 可 选 标 签 { 内 容 ...} 可 选 变量 定义 ; 


其 中 的 “内 容 ..….” 是 一 些 标识 符 的 列表 ， 可 能 有 一 些 整 型 值 赋 给 它们 。 下 面 是 
一 个 枚 举 实例 : 


enum sizes { small = 7, medium, large = 16，humungous }; 


缺 省 情况 下 ， 整 型 值 从 零 开 始 。 如 果 对 列表 中 的 茶 个 标识 符 进 行 了 赋值 ， 那 
么 紧 接 其 后 的 那个 标识 符 的 值 就 比 所 赋 的 值 大 1， 然 后 类 推 。 枚 举 具 有 一 个 优 
点 : #define 定 义 的 名 字 一 般 在 编译 时 被 丢弃 ， 而 枚 举 名 字 则 通常 一 直 在 调试 器 中 
可 见 ， 可 以 在 调试 代码 时 使 用 它们 。 


3.3 ”优先 级 规则 


到 现在 为 止 ， 我 们 已 经 回顾 了 声明 的 各 个 组 成 部 分 。 本 市 描述 了 一 种 方法 ， 


用 通俗 的 语言 把 声明 分 解 开 来 ， 分 别 解 释 各 个 组 成 部 分 。 要 理解 一 个 声明 ， 必 须 


要 懂得 其 中 的 优先 级 规则 。 语 言 律师 最 喜欢 这 种 形式 ， 它 高 度 简 洁 ， 可 惜 极 不 直 
观 。 


理解 C 语 言 声明 的 优先 级 规则 


A 声明 从 它 的 名 字 开 始 读 取 ， 然 后 按照 优先 级 顺序 依次 读 取 。 


B 优先 级 从 高 到 低 依次 如 下 。 
B.1 声明 中 被 括号 括 起 来 的 那 部 分 。 


B.2 ”后缀 操作 符 : 


括号 〈) 表示 这 是 一 个 函数 ， 而 
方 括号 [] 表 示 这 是 一 个 数组 。 


B.3 前 级 操作 符 : 星 号 * 表 示 “ 指 向 .………. 的 指针 ”。 
C 如果 const 和 或)volatile 关 键 字 的 后 面 紧 跟 类 型 说 明 符 (如 int、long 
等 ) ， 那 么 它 作 用 于 类 型 说 明 符 


。 在 其 他 情况 下 ，const 和 (或 ) volatile 关 键 字 作 
用 于 它 左边 紧邻 的 指针 星 号 。 


用 优先 级 规则 分 析 C 语 言 声明 的 一 个 例子 : 


char * const *(*next)(); 


表 3-3 用 优先 级 规则 解决 一 个 声明 


首先 ， 看 变量 名 next， 并 注意 到 它 直 接 被 括号 所 括 住 


所 以 先 把 括号 里 的 东西 作为 一 个 整体 ， 得 出 “next 是 一 个 指向 .…… 的 指针 ?” 


考虑 括号 外 面 的 内 容 ， 在 星 号 前 级 和 括号 后 缀 之 间作 出 选择 


B.2 规 则 告诉 我 们 优先 级 较 高 的 是 右边 的 函数 括号 ， 所 以 得 出 “next 是 一 个 函数 指针 ， 
指向 一 个 返回 


里 前 缀 “*”， 得 出 指针 所 指 的 内 容 


最 后 ， 把 char * const 解 释 为 指向 字符 的 常 


把 上 述 分 析 结 果 加 以 概括 ， 这 个 声明 表示 “next 是 一 个 指针 ， 它 指向 一 个 函 
数 ， 该 函数 返回 男 一 个 指针 ， 该 指针 指向 一 个 类 型 为 char 的 常量 指针 ， 大 功 告 
成 。 优 先 级 规则 浓缩 了 所 有 的 规则 。 如 果 你 更 喜欢 看 上 去 直观 一 些 的 方法 ， 请 看 
图 3-1。 


步骤 号 
1. 取 最 左边 的 标识 符 


2. 查看 标识 符 右 边 的 下 一 个 
符号 ， 如 果 是 方 括号 


3. 如 果 是 一 个 左 括号 表示 


4 如 果 左 边 的 符号 
是 一 个 左 括号 


5. 如 果 左 边 的 符 
号 是 下 述 之 一 : 
const 


volatile 


* 


6. 剩 下 的 符号 形成 
声明 的 基本 类 型 


匹配 的 符号 


如 何 阅 读 


符 是 ” 


表示 “标识 符 


oa 对 于 每 “对 ， 表 示 
evae 组 ” 


可 能 的 参半 到 右 括 号 为 止 的 内 容 
(可 能 的 参数 ) a 的 函数 ” 
1 这 个 左 括号 把 已 经 处 理 
中， 
直到 遇见 对 应 的 右 括号 。 
然后 从 第 2 步 重新 开始 


继续 向 左边 读 符 号 ， 直 到 所 读 

符号 不 再 是 左边 那 3 个 之 一 。 

如 果 符 号 是 const， 表 示 “只 读 ”; 
如 果 是 volatile， 表 示 “volatile” ; 
如 朵 是 +*， 表 示 “ 指 向 …… 的 指针 ”; 
然后 重复 第 4 步 


剩余 的 符号 可 一 并 阅读 ， 如 : 


static unsigned int 


图 3-1 如 何 解 析 C 语 言 的 声明 


C 语 言 声明 的 神奇 解码 环 
C 语 言 中 的 声明 读 起 来 并 没有 固定 的 方向 ， 一 会 儿 从 左 读 到 右 ， 一 会 儿 又 从 
一 个 怎样 的 词 来 描述 这 个 情况 。 一 开始 ， 我 们 从 左边 开始 


右 读 到 左 ， 真 不 知 该 用 
向 右 寻 找 ， 直 到 找到 第 
把 它 从 声明 中 人 处理 掉 ， 
的 然后 再 看 左边 


pa | 


付 写 ， 


个 标识 符 。 当 声明 中 的 茶 个 符号 与 图 中 所 示 匹 配 时 ， 便 
以 后 不 再 考虑 。 在 具体 的 每 一 步骤 上 ， 我 们 首先 查看 右边 
。 当 所 有 的 符号 都 被 处 理 完毕 后 ， 便 宣告 大 功 告 成 。 


3.4 ”通过 图 表 分 析 C 语 言 的 声明 


本 章 展 示 了 一 张 里 面 标 明了 分 析 步 骤 的 图 〈 见 图 3-1) 。 如 果 你 按 图 索 怠 ， 从 
第 一 步 开 始 ， 顺 着 箭头 逐步 往 下 分 析 ， 无 论 多 么 复杂 的 C 语 言 声明 都 可 以 迎 丸 而 
解 ， 都 可 以 用 最 通俗 的 语言 来 解释 〈 无 论 你 希望 简单 易 懂 到 什么 程度 ) 。 图 中 久 
略 了 typedef 以 简化 声明 。 如 果 声 明 中 有 typedef， 就 把 它 翻译 成 没有 typedef 的 样 
子 。 如 果 它 类 似 于 “typedef p a ...” 这 种 形式 ， 就 把 声明 中 所 有 类 型 为 “a ...” 的 内 容 
用 中" 来 代 藻 。 


让 我 们 试 一 些 例子 ， 用 图 中 所 示 的 方法 来 分 析 声 明 。 假 如 我 们 想 知 道 本 章 开 
头 所 举 的 那个 代码 例子 的 意思 : 


char * const *(*next)(); 

在 分 析 这 个 声明 时 ， 需 要 逐渐 把 已 经 处 理 过 的 片段 “去 掉 *"， 这 样 便 能 知道 还 
需要 分 析 多 少 内 容 。 再 次 提醒 ， 记 住 const 表 示 “ 只 读 ”， 并 不 能 因为 它 的 意思 是 常 
量 就 认为 它 表 示 的 就 是 常量 。 


处 理 过 程 显示 在 表 3-4 中 ， 在 每 一 步骤 中 ， 所 处 理 的 那 部 分 声明 用 黑体 表示 。 
从 第 一 步 开 始 ， 我 们 将 依次 进行 这 些 步骤 。 


表 3-4 分 析 一 个 C 语 言 声明 的 步 又 


余 的 声明 〈 从 最 左边 的 标识 符 | 所 采取 的 下 一 
开始 ) 


Ky 


char*const*(*next)(); | 惠 ] 步 | 表示 ext 十 ...... 


不 匹配 ， 转 到 下 一 步 ， 表 示 “next 


char * const *(* ) (); 


char* const*( *)() 第 4 步 不 匹配 ， 转 到 下 一 步 
与 星 号 匹配 ， 表 示 “ 指 向 的 指针 ”， 
char* const*( *)(); 第 5 步 ee 
char * const *( ) (); 第 4 步 
char * const * (); 第 2 步 
char * const * (); 第 3 步 
char * const * 第 4 步 
ha Ont ; 第 5 步 表示 “指向 .…… 的 指针 ? 
char * const 5 第 5 步 
char * . 第 5 步 表示 “指向 .…… 的 指针 ” 


拼 在 一 起 ， 读 作 : 


“ext 是 一 个 指向 函数 的 指针 ， 该 函数 返回 另 一 个 指针 ， 该 指针 指向 一 个 只 读 
的 指向 char 的 指针 ”， 大 功 告 成 。 


现在 让 我 们 试 一 个 更 复杂 的 例子 。 


char *(* c[16])(int **p); 


请 按照 上 面 那个 例子 的 步骤 进行 分 析 。 具 体 步骤 在 本 章 的 最 后 给 出 ， 可 以 自 


O 


条 


信 
加 


3.5 typedef 可 以 成 为 你 的 朋友 


typedef 是 一 种 有 趣 的 声明 形式 : 它 为 一 种 类 型 引入 新 的 名 字 ， 而 不 是 为 变量 
分 配 空 间 。 在 茶 些 方面 ，typedef 类 似 于 宏文 本 蔡 换 一 一 它 并 没有 引入 新 类 型 ， 而 
是 为 现 有 类 型 取 个 新 名 字 ， 但 它们 之 间 存 在 一 个 关键 性 的 区 别 ， 容 我 稍 后 解释 。 


如 果 现 在 回 过 头 去 看 看 3.2 节 ， 会 发 现 typedef 关 键 字 可 以 是 一 个 常规 声明 的 一 
部 分 ， 可 以 出 现在 靠近 声明 开始 部 分 的 任何 地 方 。 事 实 上 ，typedef 的 格式 与 变量 
声明 完全 一 样 ， 只 是 多 了 这 个 关键 字 ， 用 来 说 明 它 的 实质 。 


由 于 typedef 看 上 去 跟 变 量 声明 完全 一 样 ， 它 们 读 起 来 也 是 一 样 的 。 前 面 一 节 
描述 的 分 析 技 巧 也 同样 适用 于 typedef。 普 通 的 声明 表示 “这 个 名 字 是 一 个 指定 类 型 
的 变量 ”， 而 typedef 关 键 字 并 不 创建 一 个 变量 ， 而 是 宣称 “这 个 名 字 是 指定 类 型 的 
同义词 ”。 


一 般 情 况 下 ，typedef 用 于 简洁 地 表示 指向 其 他 东西 的 指针 。 典 型 的 例子 是 
signalO 原 型 的 声明 。signal0 是 一 种 系统 调用 ， 用 于 通知 运行 时 系统 ， 当 某 种 特定 
的 “软件 中 断 ” 发 生 时 调用 特定 的 程序 。 它 的 真正 名 称 应 该 
是 “Call_that_routine_when_this_interrupt_ comes_in”( 当 该 中 断 发 生 时 调用 那个 程 
序 ) 。 你 调用 signal0， 并 通过 参数 传递 告诉 它 中 断 的 类 型 以 及 用 于 处 理 中 断 的 程 
序 。 在 ANSI C 标 准 中 ，signal() 的 声明 如 下 : 


void (*signal(int sig, void(*func)(int)))(int); 
让 我 们 运用 刚刚 掌握 的 技巧 来 分 析 这 个 声明 ， 会 发 现 它 的 意思 如 下 : 
void(*signal( )) (int); 


signal 是 一 个 函数 (具有 一 些 令 人 胆战心惊 的 参数 ) ， 它 返回 一 个 函数 指针 ， 
后 者 所 指向 的 函数 接受 一 个 int 参 数 并 返回 void。 其 中 一 个 参数 是 其 本 坊 : 


| void(*func) (int); 


它 表 示 一 个 函数 指针 ， 所 指向 的 函数 接受 一 个 int 参 数 ， 返 回 值 是 void。 现 
在 ， 让 我 们 看 一 下 怎样 用 typedef 来 “代表 ”通用 部 分 ， 从 而 进行 简化 。 


typedef void(*ptr to func) (int); 
/* ” 它 表 示 ptr_to_func 是 一 个 函数 指针 ， 该 函数 


* ”接受 一 个 ijnt 参 数 ， 返 回 值 为 void 
4 


ptr_to func signal(int, ptr_ to _ func); 

/* ” 它 表 示 signal 是 一 个 函数 ， 它 接受 两 个 参数 ， 
* ”其 中 一 个 是 jnt， 另 一 个 是 ptr_to_func， 返 回 
* ” 值 是 ptr_to_func 


然而 ， 说 到 typedef 束 不 能 不 说 一 下 它 的 缺点 。 它 同样 具有 与 其 他 声明 一 样 的 
混乱 语法 ， 同 样 可 以 把 几 个 声明 器 塞 到 一 个 声明 中 。 对 于 结构 ， 除 了 可 以 在 书写 
时 省 掉 struct 关 键 字 之 外 ，typedef 并 不 能 提供 显 闭 的 好 处 ， 而 少 写 一 个 struct 其 实 并 
没有 多 大 帮助 。 在 任何 typedef 声 明 中 ， 甚 至 不 必 把 typedef 放 在 声明 的 开始 位 置 。 


小 局 发 
操作 声明 器 的 一 些 提示 


不 要 在 一 个 typedef 中 放 入 几 个 声明 器 ， 如 下 所 示 : 


typedef int *ptr, (*fun)(), arr[5]; 
/* ”ptr 是 “指向 int 的 指针 ”类 型 
* fun 是 “指向 返回 值 为 nt 的 函数 的 指针 ”类 型 


* arr 是 “长 度 为 5 的 int 型 数组 ”类 型 


干 万 不 要 把 typedef 髓 到 声明 的 中 间 部 分 ， 如 下 所 示 : 


unsigned const long typedef int volatile *kumquat; 


typedef 为 数据 类 型 创建 别名 ， 而 不 是 创建 新 的 数据 类 型 。 可 以 对 任何 类 型 进 
行 typedef 声 明 。 


typedef int (*array_ptr)[166]; 


应 该 只 对 所 希望 的 变量 类 型 进行 typedef 声 明 ， 为 变量 类 型 取 一 个 你 喜欢 的 别 
名 。 关 键 字 typedef 应 该 如 前 所 述 出 现在 声明 的 开始 位 置 。 在 同一 个 代码 块 中 ， 
typedef 引 入 的 名 字 不 能 与 其 他 标识 符 同 名 。 


3.6 _ typedef int x[10] 和 #define x int[10] 的 区 别 


前 面 己 经 提 到 ， 在 typedef 和 宏文 本 蔡 换 之 间 存 在 一 个 关键 性 的 区 别 。 正 确 思 
考 这 个 问题 的 方法 就 是 把 typedef 看 成 是 一 种 彻底 的 “封装 ?类 型 一 在 声明 它 之 后 
不 能 再 往 里 面 增加 别 的 内 容 。 它 和 宏 的 区 别 体现 在 两 个 方面 。 


首先 ， 可 以 用 其 他 类 型 说 明 符 对 宏 类 型 名 进行 扩展 ， 但 对 typedef 所 定义 的 类 
型 名 却 不 能 这 样 做 。 例 如 : 


#define peach int 
unsigned peach ii /* 没 问 题 */ 


typedef int banana 
unsigned banana ij; /* 错误 ! 非法 */ 


其 次 ， 在 连续 几 个 变量 的 声明 中 ， 用 typedef 定 义 的 类 型 能 够 保证 声明 中 所 有 
的 变量 均 为 同一 种 类 型 ， 而 用 #define 定 义 的 类 型 则 无 法 保证 。 例 如 : 


#define int ptr int * 
int ptr chalk, cheese; 
经 过 宏 扩展 ， 第 二 行 变 为 : 


int * chalk, cheese; 


这 使 得 chalk 和 cheese 成 为 不 同 的 类 型 ， 就 好 象 是 辣椒 桨 与 细 香 斧 的 区 别 : 
chalk 是 一 个 指向 int 的 指针 ， 而 cheese 则 是 一 个 int。 相 反 ， 下 面 的 代码 中 ; 


typedef char * char_ptr; 
char_ptr Bentley, Rolls Royce; 


Bentley 和 Rolls_Royce 的 类 型 依然 相同 。 虽 然 前 面 的 类 型 名 变 了 ， 但 它们 的 类 
型 相同 ， 都 是 指 癌 char 的 指针 。 


3.7 typedef struct foo{ ... foo; } 的 含义 


C 语 言 存在 多 种 名 字 空 间 : 


。 标签 名 (label name) ; 

。 标签 〈tag ) 一 一 这 个 名 字 空 间 用 于 所 有 的 结构 、 枚 举 和 联合 ; 
。 成 员 名 一 一 每 个 结构 或 联合 都 有 上 自身 的 名 字 空 间 ; 

。 其他。 


在 同一 个 名 字 空间 里 ， 任 何 名 字 必 须 具有 唯一 性 ， 但 在 不 同 的 名 字 空间 里 可 
以 存在 相同 的 名 字 。 由 于 每 个 结构 或 联合 具有 自己 的 名 字 空 间 ， 所 以 同一 个 名 字 
可 以 出 现在 许多 不 同 的 结构 内 。 有 些 很 老式 的 编译 器 尚 无 法 保证 这 一 点 ， 在 
BSD4.2 核 心 代码 中 ， 人 们 在 字段 名 前 加 一 个 唯一 的 首 字母 ， 在 一 定 程度 上 就 是 出 
于 这 个 原因 。 例 如 ; 


struct vnode { 


long v_flag; 
long v_usecount; 
struct vnode *y_ freef; 
struct vnodeops *y_op; 


由 于 在 不 同 的 名 字 空 间 内 使 用 同一 个 名 字 是 合法 的 ， 所 以 有 时 可 以 看 到 这 样 
的 代码 : 


struct foo{ int foo;}foo; 


这 显然 会 让 将 来 维护 这 段 代 码 的 程序 员 感 到 困惑 和 泪 丧 。 你 说 sizeof(foo) 是 表 
示 哪 一 个 foo 呢 ? 


有 些 东西 更 加 稀罕 ， 像 下 面 这 样 的 声明 竟然 也 是 合法 的 : 


typedef struct baz { int baz;} baz; 
struct baz variable 1; 
baz variable 2; 


太 多 的 baz 了 ! 让 我 们 换 一 些 清 楚 的 名 字 ， 再 试 一 试 : 


typedef struct my tag { int i;} my type 
struct my tag variable 1; 
my_type variable 2; 


= 


这 个 typedef 声 明 引 入 了 my_type 这 个 名 字 作 为 struct my_tagt{ inti; } 的 简写 形 
式 。 但 它 同 时 也 引入 了 结构 标签 my_tag， 在 它 前 面 加 个 关键 字 struct 可 以 表示 同样 
的 意思 。 如 果 你 用 同一 个 标识 符 表 示 结 构 类 型 和 typedef 声 明 引 入 的 标签 ， 那 么 以 
后 使 用 这 个 标识 符 时 前 面 就 不 必 加 上 关键 字 struct 了 ， 但 这 个 方法 向 人 们 灌输 了 一 
种 完全 错误 的 思维 方式 。 令 人 不 快 的 是 ， 这 种 与 结构 有 关 的 typedef 声 明 的 语法 确 
切 地 反映 了 组 合 结构 类 型 与 变量 声明 的 语法 。 所 以 ， 尽 管 下 面 两 个 声明 具有 相似 
的 形式 : 


typedef struct fruit{ int weight, price per lb; }fruit; /* 语句 1 */ 
struct veg{ int weight, price per lb; }veg; /* 语句 2 */ 


但 它们 代表 的 意思 却 完 全 不 一 样 ， 语 句 1 声明 了 结构 标签 fruit 和 由 typedef 声 明 
的 结构 类 型 fruit， 其 实际 效果 如 下 : 


struct fruit mandarin;  /* 使 用 结构 标签 "fruit" */ 
fruit mandarin;  /* 使 用 结构 类 型 "fruit" */ 


语句 2 声明 了 结构 标签 veg 和 变量 veg。 只 有 结构 标签 能 够 在 以 后 的 声明 中 使 
用 ， 如 : 


struct veg potato; 


如 果 试 图 使 用 veg cabbage 这 样 的 声明 ， 将 是 一 个 错误 。 这 有 点 类 似 下 面 的 写 
法 : 


int i; 
i j; 


小 启发 
操作 typedef 的 提示 


不 要 为 了 方便 起 见 而 对 结构 使 用 typedef。 


这 样 做 的 唯一 好 处 是 你 不 必 书写 struct 关 键 字 ， 但 这 个 关键 字 可 以 向 你 提示 一 
些 信息 ， 不 应 该 把 它 省 掉 。 


typedef 应 该 用 在 以 下 几 个 方面 。 
。 数组 、 结 构 、 指 针 以 及 函数 的 组 合 类 型 。 


。 可 移植 类 型 。 比 如 当 你 需要 一 种 至 少 20 比 特 的 类 型 时 ， 可 以 让 它 成 为 
typedef 的 类 型 。 这 样 ， 当 把 代码 移植 到 不 同 的 平台 时 ， 要 选择 正确 的 类 型 ， 
如 short、int、long 时 ， 只 要 在 typedef 中 进行 修改 就 可 以 了 ， 无 须 对 每 个 声明 
都 加 以 修改 。 


。 typedef 也 可 以 为 后 面 的 强制 类 型 转换 提供 一 个 简单 的 名 字 ， 如 : 


typedef int (*ptr_ to_int_ fun)(void); 
char * p; ... 
= (ptr_to_int _ fun) p; 


应 该 始终 在 结构 的 定义 中 使 用 结构 标签 ， 即 使 它 并 非 必需 的 。 这 种 做 法 可 以 
使 代码 更 为 清晰 。 


当 你 有 两 个 不 同 的 东西 时 ， 在 计算 机 科学 中 一 个 比较 好 的 原则 就 是 用 不 同 的 
名 字 来 称呼 它们 。 这 样 做 减少 了 混 清 的 危险 〈 这 始终 是 软件 的 一 个 重要 准则 ) ， 


如 果 有 可 能 搞 不 清 哪个 名 字 是 结构 标签 ， 就 为 它 取 一 个 以 _tag 结 尾 的 名 字 ， 这 使 
得 办 认 一 个 特定 的 名 字 变 得 简单 。 这 样 ， 将 来 维护 你 的 代码 的 程序 员 不 仅 不 会 埋 
候 你 ， 相 反 会 很 感激 你 。 


3.8 理解 所 有 分 析 过 程 的 代码 段 


你 可 以 轻松 地 编写 一 个 能 够 分 析 C 语 言 的 声明 并 把 它们 翻译 成 通俗 语言 的 程 
序 。 事 实 上 ， 为 什么 不 呢 ? C 语 言 声 明 的 基本 形式 已 经 描述 清楚 了 。 我 们 所 需要 
的 只 是 编写 一 段 能 够 理解 声明 的 形式 并 能 够 以 图 3-3 的 方式 对 声明 进行 分 析 的 代 
码 。 为 了 简单 起 见 ， 和 暂且 忽略 错误 处 理 ， 而 且 在 处 理 结构 、 枚 举 和 联合 时 只 简单 
地 用 struct、enum 和 和 union 来 代表 它们 的 具体 内 容 。 最 后 ， 这 个 程序 假定 函数 的 括 
号 内 没有 参数 列表 。 


编程 挑战 
编写 一 个 程序 ， 把 C 语 言 的 声明 翻译 成 通俗 语言 
这 里 有 一 个 设计 方案 。 主 要 的 数据 结构 是 一 个 堆栈 ， 我 们 从 左 向 右 读 取 ， 把 
各 个 标记 依次 压 入 堆栈 ， 直 到 读 到 标识 符 为 止 。 然 后 我 们 继续 向 右 读 入 一 个 标 


记 ， 也 就 是 标识 符 右边 的 那个 标记 。 接 着 ， 观 察 标 识 符 左边 的 那个 标记 《需要 从 
堆栈 中 弹出 ) 。 数 据 结构 大 致 如 下 : 


struct token { char type; 
char string[MAXTOKENLEN]; }; 


/* 保存 第 一 个 标识 之 前 的 所 有 标记 */ 
struct token Stack[MAXTOKENS ] ; 


/* 保存 刚 读 入 的 那个 标记 */ 


struct token this; 


伪 码 如 下 : 


classify_string 字符 串 分 类 ) 
查看 当前 的 标记 ， 
通过 this.type 返 回 一 个 值 ， 内 容 为 "type" (类 型 ) 、"qualifier" (限定 符 ) 或 
"indentifier" (标识 符 ) 
gettoken〔 取 标记 ) 
把 下 一 个 标记 读 入 this.string 
如 果 是 字母 数字 组 合 ， 调 用 classify_string 
否则 ， 它 必 是 一 个 单字 符 标 记 ，this.type = 该 标记 ; 用 一 个 nul 结 束 this.string 
read to first identifier( 读 至 第 一 个 标识 符 ) 
调用 gettoken， 并 把 标记 压 入 到 堆栈 中 ， 直 到 遇见 第 一 个 标识 符 。 
Print"identifier is" (标识 符 是 ) ， this.string 
继续 调用 gettoken 


解析 程序 ---------- 
deal with_function_args〔 处 理 函 数 参数 ) 
当 读 取 越过 右 括号 ') 后 ， 打 印 “ 函 数 返回 ” 
deal_with_arrays〔 处 理 函 数 数组 ) 
当 你 读 取 "[size]" 后 ， 将 其 打印 并 继续 向 右 读 取 。 
deal_with_any_pointers (处理 任何 指针 ) 
当 你 从 堆栈 中 读 取 "*" 时 ， 打 印 "指向 . . .的 指针 "并 将 其 弹出 堆栈 。 
deal_with_declarator 〈 处 理 声 明 器 ) 
if this.type is '[' deal with arrays 
if this.type is '(' deal with function args 
deal with_ any_pointers 
while 堆栈 里 还 有 东西 
if 它 是 一 个 左 括号 (" 
将 其 弹出 堆栈 ， 并 调用 gettoken; 应 该 获得 右 括号 “(， 
deal with_ declarator 


else 将 其 弹出 堆栈 并 打印 它 


read to first identifier 
deal with declarator 


这 是 一 个 小 型 程序 ， 在 过 去 的 几 年 中 已 被 编写 过 无 数 次 ， 通 常 取 名 
为 “cdecl[22”。The C Programming Language 有 一 个 cdecl 的 不 完整 版 本 ， 本 书 的 
cdeal 程 序 则 更 为 详尽 。 它 支持 类 型 限定 符 const 和 volatile， 同 时 它 还 涉及 结构 、 枚 
举 和 联合 ， 尺 管 在 这 方面 做 了 简化 。 你 可 以 很 轻松 地 用 这 个 版 本 的 程序 来 处 理 函 
数 中 的 参数 声明 。 这 个 程序 可 以 用 大 约 150 行 C 代 码 实 现 。 如 果 加 入 错误 处 理 ， 并 
使 程序 能 够 处 理 的 声明 范围 更 广 一 些 ， 程 序 就 会 更 长 。 无 论 如 何 ， 当 编制 这 个 解 
析 器 时 ， 相 当 于 正在 实现 编译 器 中 主要 的 子 系统 之 一 。 这 是 一 个 相当 了 不 起 的 编 


程 成 就 ， 能 够 帮助 你 获得 对 这 个 领域 的 深刻 理解 。 


Rd 


更 多 阅读 材料 


在 精通 了 在 C 语 言 中 创建 数据 结构 的 方法 后 ， 你 可 能 会 对 那些 讲述 通用 目的 
的 数据 结构 图 书 感 兴趣 。 其 中 一 本 是 Data Structures with Abstract Data Types， 这 
本 书 覆 新 了 范围 很 广 的 数据 结构 ， 包 括 字 符 串 、 列 表 、 堆 栈 、 队 列 、 树 、 堆 、 集 
合 和 图 。 推 荐 大 家 阅读 此 书 。 


3.9 ”轻松 一 下 一 一 驱动 物理 实体 的 软件 


计算 机 编程 最 大 的 乐趣 之 一 就 是 编写 软件 来 控制 一 些 物理 实体 (如 机 器 人 的 
手臂 和 磁盘 的 磁头 ) 的 运动 。 只 要 局 动 一 个 程序 ， 现 实 世 界 中 的 物体 便 在 程序 的 
控制 下 发 生 移动 ， 此 时 心中 便 会 油 然 生起 一 股 得 意 之 情 。MIT 人 工 智 能 实验 室 的 
研究 生 正 是 出 于 这 方面 的 热情 ， 才 把 系 里 的 计算 机 连接 到 9 楼 的 电梯 按钮 上 。 这 
样 ， 只 要 在 你 的 LISP 机 器 上 输入 一 条 命令 ， 束 能 控制 电梯 的 升降 ! 这 个 程序 在 运 
行 时 要 经 过 仔细 核查 ， 确 信 运 行程 序 的 终端 确实 位 于 实验 室内 部 时 ， 它 才 对 电梯 
的 升降 进行 控制 。 这 是 为 了 防止 黑客 使 用 这 个 程序 故意 卡 住 实验 室 的 电梯 。 


计算 机 编程 的 另 一 个 巨大 乐趣 就 是 利用 非常 手段 从 食物 残 漆 里 再 鄙 出 点 味道 
来 ， 所 谓 “ 变 废 为 宝 ” 嘛 。 当 然 ， 把 这 两 样 刺激 的 事 合 而 为 一 的 想法 也 是 极为 自然 
的 。 卡 耐 基 : 梅 隆 大 学 计算 机 科学 系 的 一 些 研究 生 开 发 了 一 种 计算 机 接口 ， 重 新 利 
用 了 一 项 原 有 的 已 经 远离 人 们 关注 范围 的 技术 成 果 ， 人 解决 了 一 个 长 期 困扰 他 们 的 
问题 : 计算 机 科学 系 的 可 口 可 乐 机 位 于 3 楼 ， 离 这 些 研 究 生 的 办 公 室 很 远 。 这 些 
学 生 已 经 厌倦 了 跑 这 人 么 远 的 路 到 了 那里 后 ， 却 发 现 可 乐 机 已 经 空 了 ， 或 更 粳 的 是 
可 乐 机 刚刚 填 满 ， 这 时 拿 到 的 可 乐 还 不 够 凉 ! John Zsarney 和 Lawrence Butcher 发 
现 可 乐 机 把 所 有 的 可 乐 储存 在 6 个 冰柜 里 ， 每 个 冰柜 都 有 一 荔 “ 空 " 灯 ， 当 它 同 外 发 
送 一 瓶 可 乐 时 ， 灯 便 内 炮 。 如 果 冰 柜 中 所 有 的 可 乐 都 售 完了 ， 灯 就 一 直 亮 着 。 把 
这 些 灯 接 到 串 行 口 ， 把 “正在 发 放 可 乐 ”信息 传送 到 系 里 的 PDP-10 大 型 机 应 该 不 是 
件 困难 的 事 。 这 样 ， 可 乐 机 的 接口 看 上 去 就 像 是 一 个 Telnet 连 接 ! Mike Kazar 和 
Dave Nichols 编 写 了 软件 ， 它 能 够 对 查询 作出 回应 ， 并 能 够 查 到 哪个 冰柜 里 的 可 
乐 最 冰 。 


自然 ，Mike 和 Dave 并 没有 就 此 止步 。 他 们 又 设计 了 一 个 网 络 协 议 ， 当 地 以 太 
网 上 的 任何 一 台 机 器 在 查询 可 乐 机 的 状态 时 ， 大 型 机 都 能 给 予 回 答 。 最 后 ， 甚 至 
是 来 自 Internet 的 查询 也 能 得 到 回答 。Ivor Durham 实 现 了 这 个 软件 来 完成 这 项 工 
作 ， 能 够 从 其 他 机 器 上 检查 可 乐 机 的 状态 。 和 凭借 其 令 人 称道 的 经 济 头 脑 ，Ivor 复 


用 了 标准 的 finger 程 序 一 一 这 个 通常 用 于 在 一 台 机 器 上 检查 一 位 确定 的 用 户 是 否 在 
另 一 台 机 器 上 登录 的 程序 。 他 修改 了 finger 的 服务 器 端 ， 每 当 有 人 使 用 不 存在 的 用 
户 名 coke 执 行 finger 程 序 时 ， 它 便 会 运行 可 乐 机 状态 查询 程序 。 由 于 finger 请 求 是 
Internet 标 准 协议 的 一 部 分 ， 所 以 人 们 可 以 从 任何 卡耐基 : 梅 隆 大 学 计算 机 上 得 询 可 
乐 机 的 状态 。 事 实 上 ， 通 过 运行 下 面 的 命令 : 


finger coke@g.gp.cmu.edu 


可 以 从 Intemet 的 任何 一 个 机 器 上 查询 到 该 可 乐 机 的 状态 ， 即 使 是 远 在 和 干 里 之 
外 。 


参与 这 项 工程 的 人 还 有 Steve Berman、Eddie Caplan、Mark Wilkins 和 Mark 

Zaremskyl3]。 这 个 可 乐 机 查询 程序 的 使 用 时 间 超 过 了 10 年 。 当 20 世 纪 80 年 代 早 期 
PDP-10 被 淘汰 时 ， 他 们 甚至 又 为 UNIX Vaxen 重 新 编写 了 程序 。 直 到 几 年 前 ， 这 
个 程序 才 结 束 其 历史 使 命 。 因 为 当地 的 可 乐 瓶 装 商 停止 使 用 这 种 可 以 回收 的 、 可 
乐 瓶 形状 的 瓶子 。 由 于 原来 的 旧 可 乐 机 无 法 使 用 新 形状 的 可 乐 瓶 ， 于 是 它 被 一 全 
新 的 售 货 机 所 取代 ， 而 新 机 器 需要 新 的 接口 才能 实现 查询 。 一 时 间 ， 没 人 接手 这 
事 。 但 咖啡 因 的 诱惑 最 终 驱 使 Greg Nelson 为 新 机 器 重新 设计 了 查询 程序 。 卡 耐 基 : 
梅 隆 大 学 的 研究 生 同 时 把 糖果 机 也 接 到 计算 机 上 ， 其 他 学 校 也 纷纷 效仿 类 似 的 项 
日 。 


西 澳 大 利 亚 大 学 的 计算 机 俱乐部 把 一 台 可 乐 机 连接 到 一 台 68000 CPU、 内 存 
80KB、 具 有 以 太 网 接口 的 机 器 (在 20 世 纪 80 年 代 中 期 ， 这 个 配置 比 一 般 的 PC 要 
强 很 多 ) 上 。 位 于 纽约 罗切斯特 的 罗切斯特 理工 学 院 (Rochester Institute of 
Technology) 的 计算 机 科学 所 也 把 一 台 可 乐 机 连 上 了 Internet， 并 对 功能 作 了 扩 - 
展 ， 人 允许 用 户 使 用 信用 卡 或 计算 机 账户 支付 。 有 个 学 生 整 个 暑假 都 喜欢 从 家 里 登 
录 到 几 百 英里 远 的 可 乐 机 上 ， 有 时 兴 之 所 至 ， 为 下 一 位 登录 者 免费 提供 饮料 。 一 
时 间 ， 可 乐 机 似乎 很 快 将 成 为 Internet 上 常见 的 硬件 系统 。 


为 什么 只 局 限于 可 乐 机 昵 ? 有 年 圣诞 节 ，Cygnus Support 的 程序 员 把 他 们 的 


圣诞 树 装 饰物 连 到 以 太 网 上 。 这 样 ， 他 们 便 可 以 通过 工作 站 控制 灯火 的 内 灭 ， 从 
中 体验 快感 。 人 们 担心 日 本 在 技术 方面 会 领先 美国 ! 在 Sun 公 司 内 部 ， 有 一 个 邮 
件 地 址 可 以 自动 转换 到 一 个 带 有 传真 功能 的 调制 解 调 器 上 。 当 你 用 这 个 地 址 发 送 
邮件 时 ， 它 会 进行 解析 ， 取 得 电话 号 码 的 细节 ， 并 作为 传真 发 送 。 顶 级 程序 员 

Don Hopkins 编 写 了 pizzatool 程 序 ， 充 分 利用 了 这 个 功能 。pizzatool 使 用 了 GUI 界 
面 ， 让 你 自己 选择 浇 在 比萨 饼 上 的 奶油 《〈 绝 大 多 数 用 户 都 自行 指定 附加 的 GUI 奶 
酷 ) ， 并 用 传真 把 定单 发 到 附近 的 Tony & Alba's 比 萨 餐 厅 ， 那 里 可 以 受理 传真 订 
单 ， 他 们 会 把 比萨 饼 送 过 来 。 


正当 这 种 服务 的 用 途 不 断 扩展 之 时 ，SUN 公 司 的 SPARC 服 务 嚣 600MP 系 列 计 
算 机 正在 实验 室 里 紧锣密鼓 地 开发 着 。 我 想 我 透露 这 个 信息 还 不 致 于 有 泄露 商业 
机 密 之 嫌 。 


解决 方案 


理解 所 有 分 析 过 程 的 代码 段 


1 #include <stdio.h> 

2 #include <string.h> 

3 #include <ctype.h> 

4 #include <stdlib.h> 

5 #define MAXTOKENS 166 
6 #define MAXTOKENLEN 64 


7 
8 enum type tag { IDENTIFIER, QUALIFIER, TYPE }; 
9 


16 struct token { 
11 char type; 
12 char string[MAXTOKENLEN]; 


15 int top = -1; 
16 struct token stack[MAXTOKENS]; 
17 struct token this; 


18 

19 #define pop stack[top--] 

26 #define push(s) stack[++top] = s 
21 

22 enum type tag classify_ string(void) 
23 /* 推断 标识 符 的 类 型 */ 


24 { 

25 char *s = this.string; 

26 if(!strcmp(s, "const")){ 
27 strcpy(s, "read-only"); 
28 return QUALIFIER; 

29 } 


36 if(!strcmp(s, "volatile")) return QUALIFIER; 
31 if(!strcmp(s, "void")) return TYPE; 
32 if(!strcmp(s, "char")) return TYPE; 
33 if(!strcmp(s, "signed")) return TYPE; 
34 if(!strcmp(s, "unsigned")) retun TYPE; 
35 if(!strcmp(s, "short")) return TYPE; 
36 if(!strcmp(s, "int")) return TYPE; 

37 if(!strcmp(s, "long")) return TYPE; 
38 if(!strcmp(s, "float")) retun TYPE; 

39 if(!strcmp(s, "double")) return TYPE; 
46 if(!strcmp(s, "struct")) return TYPE; 
41 if(!strcmp(s, "union")) return TYPE; 
42 if(!strcmp(s, "enum")) retun TYPE; 

43 return INDENTIFIER; 


44 } 

45 

46 void gettoken(void) /* 读 取 下 一 个 标记 到 this */ 
47 { 

48 char *p = this.string; 

49 

58 。 /* 略 过 空白 字符 */ 

51 while((*p = getchar()) == " '); 

52 

53 if(isalnum(*p))t{ 

54 /* 读 入 的 标识 符 以 A-z 或 8-9 开 头 */ 
55 while(isalnum(*++p = getchar())); 
56 ungetc(*p, stdin); 

27 *p = 8 

58 this.type = Classify_ string(); 

59 Peturn 

66 } 

61 

62 if(*p == '*') { 

63 strcpy(this.string, "pointer to"); 
64 this.type = '*"'; 

65 return; 

66 


67 this.string[1] = '\'; 

68 this.type = *p; 

69 return; 

70 } 

71 /* 理解 所 有 分 析 过 程 的 代码 段 */ 


72 read to first identifer() { 


73 gettoken(); 


74 while(this.type != IDENTIFIER) { 


75 push(this); 
76 gettoken(); 
77 


} 
78 printf("%s is 
79 gettoken(); 


， this.string); 


80 } 

81 

82 deal with arrays() { 

83 while(this.type == '[') { 

84 printf("array "); 

85 gettoken(); ” /* 数 字 或 ']'" */ 

86 if(isdigit(this.string[6])) { 

87 printf("8..%d ", atoi(this.string)-1); 
88 gettoken(); /* 读 取 ']' */ 

89 

96 gettoken(); /* 读 取 '] ' 之 后 的 再 一 个 标记 
91 printf("of "); 

92 } 

93 } 

94 

95 deal with function args() { 

96 while(this.type != ')') { 

97 gettoken(); 

98 


99 gettoken(); 


166 printf("function returning "); 


161 } 


163 deal with pointers() { 
164 while(stack[top].type == '*' ) { 


165 printf("%s 


1066  } 
167 } 


， Ppop.string ); 


169 deal with declarator() { 


116 /* 处 理 标识 符 2 


后 可 能 存在 的 数组 /函数 */ 


111 switch(this.type) { 
112 case '[' : deal with arrays(); break; 
113 case '(' : deal with function args(); 


114  } 


116 deal with pointers(); 


118 。/* 处 理 在 读 入 到 标识 符 之 前 压 入 到 堆栈 中 的 符号 */ 
119 while(top >= 6) { 


126 if(stack[top].type == '(' ){ 

121 pop; 

122 gettoken(); /* 读 取 ' )' 之 后 的 符号 
123 deal with declarator(); 

124 }else { 


125 printf("%s ", pop.string); 


a 


*/ 


126 } 
127  } 
128 } 


136 main() 


132 /* 将 标记 压 入 堆栈 中 ， 直 到 遇见 标识 符 */ 
133 read to first identifier(); 

134 deal with declarator(); 

135 printf("\n"); 

136 return 90; 


小 局 发 
使 字符 串 的 比较 看 上 去 更 自然 


strcmpO 函 数 用 于 比较 两 个 字符 串 ， 它 所 存在 的 其 中 一 个 问题 是 : 当 两 个 字符 
串 相 等 时 ， 函 数 的 返回 值 为 零 。 当 字符 串 比 较 是 条 件 语句 的 一 部 分 时 ， 这 个 问题 
就 会 导致 令 人 费解 的 代码 : 


if(!strcmp(s, "volatile")) return QUALIFIER; 


返回 值 零 使 条 件 语 句 的 结果 为 假 ， 所 以 我 们 不 得 不 对 其 取 反 ， 得 到 需要 的 结 
果 。 


这 里 有 一 个 更 好 的 方法 。 建 立 宏 定义 : 
#define STRCMP(a, R, b) (strcmp(a, b) R 9) 


现在 你 可 以 以 自然 的 风格 来 编写 代码 : 


if(STRCMP(s, ==, "volatile")) | 


部 分 


使 用 这 个 宏 定 义 ， 代 码 可 以 用 更 自然 的 风格 来 表示 它 的 意思 。 请 用 这 种 字符 
串 比较 风格 重新 编写 cdecl 程 序 ， 看 看 你 是 否 更 喜欢 这 种 方式 。 


解决 方案 


分 析 一 个 C 语 言 的 声明 (又 一 实例 ) 


这 是 前 文中 “这 个 声明 表示 什么 ”的 解答 。 在 每 一 个 步骤 中 ， 我 们 所 处 理 的 那 
声明 以 粗 体 字 表 示 。 从 第 一 步 起 ， 我 们 将 依次 处 理 下 列 步骤 。 


下 一 步 要 进行 的 步 


剩余 的 声明 


又 


从 最 左边 的 那个 标识 符 开 


始 


char *(*c[10])(int **p ); 


char *(* [10])(int **p) ; 


char *(* )(int **p) ; 的 指针 " 转 到 第 4 步 


去 掉 两 边 括号 ， 转 到 第 2 步 ， 再 接着 执行 第 3 
步 


char *( )(int **p) ; 第 4 步 


char * 


char * 


char 


然后 把 它们 归纳 在 一 起 ， 读 作 : 


(int **p) ; 


表示 "char:" 


“c 是 一 个 数组 [0...9]， 它 的 元 素 类 型 是 函数 指针 ， 其 所 指向 的 函数 的 返回 值 


是 一 个 指向 char 的 指针 ”。 


顺利 完工 。 注 意 


: 在 数组 中 被 函数 指针 所 指 回 的 所 有 图 数 都 把 一 个 指 回 指 针 
的 指针 作为 它们 的 唯一 参数 。 


[1] 即 The C Programming Language. 一 一 译 者 注 


[2] 不 要 把 它 跟 PC 上 的 C/C++ 编译 器 所 缺 省 使 用 的 函数 调用 约定 cdedl 混 为 一 谈 。 


[3] Craig Everhart, Eddie Caplan 和 Robert Frederking, “Serious Coke 


Addiction,”25 站 Anniversary Symposium,Computer Science at CMU: A Commemorative 


Review,1990,p.70.Reed and Witting Company. 


第 4 草 令 人 展 尺 的 事实 : 数组 和 指针 并 不 相同 


数组 的 下 标 应 该 从 0 还 是 从 1 开始 ? 我 提议 的 妥协 方案 是 0.5， 可 惜 他 们 未 予 认 
真 考虑 便 一 口 回绝 。 


一 一 Stan Kelly-Bootle 


4.1 数组 并 非 指 针 


C 编 程 新 手 最 常 听 到 的 一 个 说 法 就 是 “数组 和 指针 是 相同 的 "。 不 幸 的 是 ， 这 
是 一 种 非常 危险 的 说 法 ， 并 不 完全 正确 。ANSI C 标 准 第 6.5.4.2 节 建议 : 


注意 下 列 声明 的 区 别 : 


extern int *x; 
extern int y[]; 


第 一 条 语句 声明 x 是 个 int 型 的 指针 ;第 二 条 语句 声明 y 是 个 int 型 数组 ， 长 度 尚 


未 确定 〈 不 完整 的 类 型 ) ， 其 存储 在 别处 定义 。 


标准 并 没有 做 更 细 的 规定 。 许 多 C 语 言 图 书 对 数组 与 指针 何 时 相同 、 何 时 不 
同 含糊 其 套 ， 对 于 这 个 应 该 重点 阐述 的 话题 只 是 一 带 而 过 。 本 书 完整 地 解释 了 数 
组 什么 时 候 等 同 于 指针 ， 什 么 时 候 又 不 等 同 于 指针 以 及 原因 所 在 ， 从 而 补 上 了 这 
一 课 。 不 仅 如 此 ， 我 还 把 这 个 问题 作为 一 章 的 标题 大 肆 泻 染 ， 而 不 是 悄 无 声 奶 地 
放 在 脚注 里 顺便 提 一 下 。 


4.2 我 的 代码 为 什么 无 法 运行 


常常 有 人 让 我 看 类 似 下 面 的 程序 ， 抱 候 “ 它 无 法 运行 "。 如 果 每 次 我 都 能 拿 到 
一 毛 钱 ， 你 猜 现 在 累积 起 来 有 多 少 了 ? 让 我 数 数 ， 唔 ， 差 不 多 有 好 几 元 了 。 


文件 1: 


int mango[166] ; 


文件 2: 


extern int *mango 


/* 一些 引用 mangof[i] 的 代码 */ 


这 里 ， 文 件 1 定 义 了 数组 mango， 但 文件 2 声明 它 为 指针 。 这 有 什么 错误 吗 ? 
无 论 如 何 , “每 个 人 都 知道 ”在 C 语 言 中 ， 数 组 和 指针 非常 相似 。 问 题 在 于 “每 个 
人 ”这 种 说 法 是 错误 的 ! 这 相当 于 把 整数 和 浮 点 数 混为一谈 : 


文件 1: 


int guava; 


文件 2: 


[extern float guava; | 

上 面 这 个 int 和 float 的 例子 非常 明显 一 一 类 型 不 匹配 ， 没 人 会 指望 这 样 的 代码 
能 够 运行 。 但 是 为 什么 人 们 会 认为 指针 和 数组 始终 应 该 是 可 以 互 换 的 呢 ? 答案 是 
对 数组 的 引用 总 是 可 以 写成 对 指针 的 引用 ， 而 且 确 实 存在 一 种 指针 和 数组 的 定义 
完全 相同 的 上 下 文 环 境 。 不 幸 的 是 ， 这 只 是 数组 的 一 种 极为 普通 的 用 法 ， 并 非 所 
有 情况 下 都 是 如 此 。 但 是 ， 人 们 却 自 然而 然 地 归纳 并 假定 在 所 有 的 情况 下 数组 和 
指针 都 是 等 同 的， 包括 上 面 完 全 错误 的 “数组 定义 等 同 于 指针 的 外 部 声明 ”这 种 情 


况 。 


4.3 什么 是 声明 ， 什 么 是 定义 


在 搞 清 这 个 问题 之 前 ， 需 要 在 头脑 里 重新 整理 一 些 基 本 的 C 语 言 术 语 。 记 
住 ，C 语 言 中 的 对 象 必须 有 且 只 有 一 个 定义 ， 但 它 可 以 有 多 个 extern 声 明 。 顺 便 说 
一 下 ， 这 里 所 说 的 对 象 跟 C++ 中 的 对 象 并 无 关系 ， 这 里 的 对 象 只 是 跟 链接 占有 关 
的 “东西 >， 比 如 函数 和 变量 。 


定义 是 一 种 特殊 的 声明 ， 它 创建 了 一 个 对 象 ， 声明 简单 地 说 明了 在 其 他 地 方 
创建 的 对 象 的 名 字 ， 它 允许 你 使 用 这 个 名 字 。 让 我 们 回顾 一 下 这 两 个 术语 。 


定 | 只 能 出 现在 一 确定 对 象 的 类 型 并 分 配 内 存 ， 用 于 创建 新 的 对 象 。 例 如 : int 

义 个 地 方 my_array[100]; 

声 描述 对 象 的 类 型 ， 用 于 指 代 其 他 地 方 定义 的 对 象 ( 例 如 在 其 他 文件 
可 以 多 次 出 现 

明 里 ) 。 例 如 : extern int my_array[]; 


小 启发 


区 分 定义 和 声明 


只 要 记 住 下 面 的 内 容 即 可 分 清 定义 和 声明 。 


声明 相当 于 普通 的 声明 ， 它 所 说 明 的 并 非 自 身 ， 而 是 描述 其 他 地 方 创建 的 对 


定义 相当 于 特殊 的 声明 ， 它 为 对 象 分 配 内 存 。 


extern 对 象 声 明 告 诉 编译 器 对 象 的 类 型 和 名 字 ， 对 象 的 内 存 分 配 则 在 别处 进 
行 。 由 于 并 未 在 声明 中 为 数组 分 配 内 存 ， 所 以 并 不 需要 提供 关于 数组 长 度 的 信 
恩 。 对 于 多 维 数组 ， 需 要 提供 除 最 左边 一 维 之 外 其 他 维 的 长 度 一 一 这 就 给 编译 器 
足够 的 信息 产生 相应 的 代码 。 


4.3.1 数组 和 指针 是 如 何 访问 的 


本 节 讲 述 对 数组 的 引用 和 对 指针 的 引用 有 何不 同 之 处 。 首 先 需 要 注意 的 是 “地 
址 y* 和 “地 址 y 的 内 容 ” 之 间 的 区 别 。 这 是 一 个 相当 微妙 之 处 ， 因 为 在 大 多 数 编程 语 
言 中 我 们 用 同一 个 符号 来 表示 这 两 样 东西 ， 然 后 由 编译 器 根据 上 下 文 环境 判断 它 
的 具体 含义 。 以 一 个 简单 的 赋值 为 例 ， 见 图 4-1。 


2=Ys 
在 这 个 上 下 文 环境 里 ， 符 号 和 在 这 个 上 下 文 环境 里 ， 符 号 Y 的 
的 含义 是 X 所 代表 的 地 址 含义 是 Y 所 代表 的 地 址 的 内 容 
这 被 称 为 左 值 这 被 称 为 右 值 
左 值 在 编译 时 可 知 ， 左 值 表示 右 值 直到 运行 时 才 知 。 如 无 特别 说 明 ， 
存储 结果 的 地 方 右 值 表示 “Y 的 内 容 ” 


C 诸 言 引入 了 “可 修改 的 左 值 ”这 个 术语。 它 表 示 左 值 允许 出 现在 赋值 语句 的 左边 。 这 个 奇怪 的 
术语 是 为 了 与 数组 名 区 分 ， 数 组 名 也 用 于 确定 对 象 在 内 存 中 的 位 置 ， 也 是 左 值 ， 但 它 不 能 作为 赋值 的 
对 象 。 因 此 ， 数 组 名 是 个 左 值 但 不 是 可 修改 的 左 值 。 标 准 规定 赋值 符 必 须 用 可 修改 的 左 值 作为 它 左边 
一 侧 的 操作 数 。 用 通俗 的 话说 ， 只 能 给 可 以 修改 的 东西 赋值 。 


图 4-1 地 址 〈 左 值 )》 和 地 址 的 内 容 〈 右 值 ) 之 间 的 区 别 


出 现在 赋值 符 左边 的 符号 有 时 被 称 为 左 值 ( 由 于 它 位 于 “左手 边 ” 或 “表示 地 
点 ”) ， 出 现在 赋值 符 右边 的 符号 有 时 则 被 称 为 右 值 〈( 由 于 它 位 于 “右手 边 *) 。 编 


译 器 为 每 个 变量 分 配 一 个 地 址 〈 左 值 ) 。 这 个 地 址 在 编译 时 可 知 ， 而 且 该 变量 在 
运行 时 一 直 保存 于 这 个 地 址 。 相 反 ， 存 储 于 变量 中 的 值 〈 它 的 右 值 ) 只 有 在 运行 
时 才 可 知 。 如 果 需 要 用 到 变量 中 存储 的 值 ， 编 译 器 就 发 出 指令 从 指定 地 址 读 入 变 
量 值 并 将 它 存 于 寄存 器 中 。 


这 里 的 关键 之 处 在 于 每 个 符号 的 地 址 在 编译 时 可 知 。 所 以 ， 如 果 编 译 器 需要 
一 个 地 址 (可 能 还 需要 加 上 偏 移 量 ) 来 执行 某 种 操作 ， 它 就 可 以 直接 进行 操作 ， 
并 不 需要 增加 指令 首先 取得 具体 的 地 址 。 相 反 ， 对 于 指针 ， 必 须 首 先 在 运行 时 取 
得 它 的 当前 值 ， 然 后 才能 对 它 进 行 解除 引用 操作 《作为 以 后 进行 查找 的 步骤 之 
一 ) 。 图 4-2 展 示 了 对 数组 下 标的 引用 。 


char a[9] = "abcdetgh"; ce c=alil; 
编译 器 符号 表 具 有 一 个 地 址 9980 
运行 时 步骤 1: 取 i 的 值 ， 将 它 与 9980 相 加 。 
运行 时 步 骆 2: 取 地 址 (9980 +i) 的 内 容 。 


/ 
rs 国 丁 各 


9980 El a SS sr Hil 


图 4-2 ”数组 的 下 标 引 用 


这 就 是 为 什么 extern char a[] 与 extern char a[100] 等 价 的 原因 。 这 两 个 声明 都 提 
示 a 是 一 个 数组 ， 也 就 是 一 个 内 存 地 址 ， 数 组 内 的 字符 可 以 从 这 个 地 址 找到 。 编 译 
器 并 不 需要 知道 数组 总 共有 多 少 长 ， 因 为 它 只 产生 偏离 起 始 地 址 的 偏 移 地 址 。 在 
从 数组 提取 一 个 字符 时 ， 只 要 简单 地 将 符号 表 显 示 的 a 的 地 址 加 上 下 标 ， 需 要 的 字 
符 就 位 于 这 个 地 址 中 。 


相反 ， 如 果 声 明 extern char *p, 它 将 告诉 编译 器 p 是 一 个 指针 在 许多 现代 的 
机 器 里 它 是 个 4 字 节 的 对 象 ) ， 它 指向 的 对 象 是 一 个 字符 。 为 了 取得 这 个 字符 ， 
必须 得 到 地 址 p 的 内 容 ， 把 它 作 为 字符 的 地 址 并 从 这 个 地 址 中 取得 这 个 字符 。 指 
针 的 访问 要 灵活 得 多 ， 但 需要 增加 一 次 额外 的 提取 ， 如 图 4-3 所 示 。 


char *p ey C=*p; 


编译 器 符号 表 有 一 个 符号 p， 它 的 地 址 为 4624 
运行 时 步 又 1: 取 地 址 4624 的 内 容 ， 就 是 '5081'。 
运行 时 步骤 2: 取 地 址 5081 的 内 容 。 


4624 35081 


图 4-3 ”对 指针 的 引用 
4.3.2” 当 “定义 为 指针 ， 但 以 数组 方式 引用 ”时 会 发 生 什么 


现在 让 我 们 看 一 下 当 一 个 外 部 数组 的 实际 定义 是 一 个 指针 ， 但 却 以 数组 的 方 
式 对 其 引用 时 ， 会 引起 什么 问题 。 需 要 对 内 存 进行 直接 的 引用 《如 图 4-2 所 示 ) ， 
但 这 时 编译 器 所 执行 的 却 是 对 内 存 进行 间接 引用 (如 图 4-3 所 示 〉。 之 所 以 会 如 
此 ， 是 因为 我 们 告诉 编译 器 我 们 拥有 的 是 一 个 指针 ， 如 图 4-4 所 示 。 
char *p = "abcdefeh": c=p[: 
编 详 器 符号 表 共 有 一 个 p， 地 址 为 4624 
运行 时 步 又 1: 取 地 址 4624 的 内 容 ， 即 '5081'。 


运行 时 步骤 2: 取得 i 的 值 ， 并 将 它 与 5081 相 加 。 
运行 时 步 台 3: 取 地 址 [5081+i] 的 内 容 。 


4624 5081 44 R23 tk a 


图 4-4 ”对 指针 进行 下 标 引 用 


对 照 图 4-4 的 访问 方式 : 


char *p = ”abcdefgh”; ... p[3] 


和 图 4-2 的 访问 方式 : 


char a[] = ”abcdefgh”; ... a[3] 


在 这 两 种 情况 下 ， 都 可 以 取得 字符 'd'"， 但 两 者 的 途径 非常 不 一 样 。 


当 书 写 了 extern char *p， 然 后 用 p[3] 来 引用 其 中 的 元 素 时 ， 其 实质 是 图 4-2 和 
图 4-3 访 问 方式 的 组 合 。 首 先 ， 进 行 图 4-3 所 示 的 间接 引用 。 其 次 ， 如 图 4-2 所 示 用 
下 标 作 为 偏 移 量 进行 直接 访问 。 更 为 正式 的 说 法 是 ， 编 译 器 将 会 执行 如 下 操作 。 


1. 取得 符号 表 中 p 的 地 址 ， 提 取 存 储 于 此 处 的 指针 。 


2. 把 下 标 所 表示 的 偏 移 量 与 指针 的 值 相 加 ， 产 生 一 个 地 址 。 


3. 访问 这 个 地 址 ， 取 得 字符 。 


编译 器 已 被 告知 p 是 一 个 指向 字符 的 指针 相反， 数组 定义 告诉 编译 器 p 是 一 
个 字符 序列 ) 。p 虽 表示 “从 p 所 指 的 地 址 开始 ， 前 进步 ， 每 步 都 是 一 个 字符 ( 即 
每 个 元 素 的 长 度 为 一 个 字 节 ) ”。 如 果 是 其 他 类 型 的 指针 《如 int 或 double 等 ) ， 其 
步 长 〈 每 步 的 字 节 数 ) 也 各 不 相同 。 


既然 把 p 声 明 为 指针 ， 那 么 不 管 p 原 先是 定义 为 指针 还 是 数组 ， 都 会 按照 上 面 
所 示 的 3 个 步骤 进行 操作 ， 但 是 只 有 当 p 原 来 定义 为 指针 时 这 个 方法 才 是 正确 的 。 
考虑 一 下 p 在 这 里 被 声明 为 extern char *p;， 而 它 原先 的 定义 却 是 char p[10]; 这 种 情 
形 。 当 用 pi 这 种 形式 提取 这 个 声明 的 内 容 时 ， 实 际 上 得 到 的 是 一 个 字符 。 但 按照 
上 面 的 方法 ， 编 译 器 却 把 它 当 成 是 一 个 指针 ， 把 ACSII 字 符 解释 为 地 址 显然 是 牛 
头 不 对 马 嘴 。 如 果 此 时 程序 宕 掉 ， 你 应 该 额 手 称 庆 。 否 则 的 话 ， 它 很 可 能 会 污染 
程序 地 址 空间 的 内 容 ， 并 在 将 来 出 现 莫名其妙 的 错误 。 


4.4 使 声明 与 定义 相 匹 配 


旨 针 的 外 部 声明 与 数组 定义 不 匹配 的 问题 很 容易 修正 ， 只 要 修改 声明 ， 使 之 
与 定义 相 匹 配 即 可 。 例 如 : 


文件 1: 


int mango[166] ; 


文件 2: 


extern int mango[]; 


/引用 mangofi] 的 一 些 代码 */ 


mango 数 组 的 定义 分 配 了 100 个 int 的 空间 。 而 指针 定义 : 


int *raisin; 


则 申请 一 个 地 址 容纳 该 指针 。 指 针 的 名 字 是 raisin， 它 可 以 指向 任何 一 个 int 变 
量 (或 int 型 数组 )。 指 针 变 量 raisin 本 身 始终 位 于 同一 个 地 址 ， 但 它 的 内 容 在 任何 
时 候 都 可 以 不 相同 ， 指 向 不 同 地 址 的 int 变 量 。 这 些 不 同 的 int 变 量 可 以 有 不 同 的 
值 。mango 数 组 的 地 址 并 不 能 改变 ， 在 不 同 的 时 候 它 的 内 容 可 以 不 同 ， 但 它 总 是 
表示 100 个 连续 的 内 存 空间 。 


4.5 ”数组 和 指针 的 其 他 区 别 


比较 数组 和 指针 的 另外 一 个 方法 就 是 对 比 两 者 的 特点 ， 见 表 4-1。 


表 4-1 数组 和 指针 的 区 别 


指针 


数组 


保存 数据 的 地 址 


保存 数据 


然后 从 这 个 地 址 提取 数据 
如 果 指 针 有 一 个 下 标 自 ， 就 把 指针 的 内 容 加 上 i 作为 地 
址 ， 从 中 提取 数据 


间接 访问 数据 ， 首 先 取 得 指针 的 内 容 ， 把 它 作 为 地 址 ， 


直接 访问 数据 ，a[i] 只 是 简单 地 以 ati 
为 地 址 取得 数据 


ul 


用 于 动态 数据 结构 


[Ex 


通常 用 于 存储 固定 数目 且 数 据 类 型 
相同 的 元 素 


相关 的 函数 为 malloc()、free() 隐 式 分 配 和 删除 
通常 指向 匿名 数据 自身 即 为 变量 名 


数组 和 指针 都 可 以 在 它们 的 定义 中 用 字符 
样 ， 但 底层 的 机 制 却 不 相同 。 


串 音量 进行 初始 化 。 尽 管 看 上 去 一 


定义 指针 时 ， 编 译 占 并 不 为 指针 所 指向 的 对 象 分 配 空间 ， 它 只 是 分 配 指针 本 
身 的 空间 ， 除 非 在 定义 时 同时 赋 给 指针 一 个 字符 串 和 常量 进行 初始 化 。 例 如 ， 下 面 
的 定义 创建 了 一 个 字符 串 常 量 〈 为 其 分 配 了 内 存 ) : 


[char *p = "breadfruit"; 


注意 只 有 对 字符 串 和 常量 才 是 如 此 。 不 能 指望 为 浮 点 数 之 类 的 常量 分 配 空间 ， 


float *pip = 3.141; /* 错误 ! 无 法 通过 编译 */ 


在 ANSI C 中 ， 初 始 化 指针 时 所 创建 的 字符 串 常 量 被 定义 为 只 读 。 如 果 试 图 通 
过 指针 修改 这 个 字符 串 的 值 ， 程 序 就 会 出 现 未 定义 的 行为 。 在 有 些 编译 器 中 ， 字 
符 串 常量 被 存放 在 只 允许 读 取 的 文本 段 中 ， 以 防止 它 被 修改 。 


数组 也 可 以 用 字符 串 常 量 进行 初始 化 : 


char a[] = "gooseberry"; 


与 指针 相反 ， 由 字符 串 常 量 初始 化 的 数组 是 可 以 修改 的 。 其 中 的 单个 字符 在 
以 后 可 以 改变 ， 比 如 下 面 的 语句 : 


strncpy(a, "black", 5); 


就 将 数组 的 值 修 改 为 “blackberry”。 


第 9 革 将 讨论 指针 和 数组 可 以 等 同 的 情况 ， 并 讨论 为 什么 有 时 它们 可 以 相 
等 ， 以 及 其 中 的 机 理 是 怎样 的 。 第 10 章 描述 了 一 些 基于 指针 的 数组 高 级 使 用 技 
巧 。 如 果 能 坚持 读 完 那 一 章 ， 那 么 ， 关 于 数组 方面 的 知识 ， 仅 仅 是 你 志 掉 的 内 容 
也 可 能 比 许多 C 程 序 员 总 共 知 道 的 内 容 还 要 多 。 


旨 针 是 C 语 言 中 最 难 正确 理解 和 使 用 的 部 分 之 一 ， 可 能 只 有 声明 的 语法 比 它 
更 麻烦 了 。 然 而 ， 它 们 也 是 C 语 言 中 最 重要 的 部 分 之 一 。 专 业 C 程 序 员 必须 熟练 党 
握 mallocO 函 数 ， 并 且 学 会 用 指针 操纵 匿名 内 存 。 


4.6 ”轻松 一 下 一 一 回 文 的 乐趣 


回 文 就 是 指 这 样 一 个 单词 或 短语 ， 即 它们 顺 读 和 倒 读 都 是 一 样 的 。 例 如 : “do 
geese see God?”( 回 答 :“O,no!”) 。 回 文 是 一 种 室内 娱乐 游戏 ， 每 个 人 争取 回答 
出 最 长 的 句子 ， 同 时 这 个 句子 多 少 有 点 意思 。 例 如 拿破仑 最 后 的 悔恨 之 语 “Able 
was 1, ere I saw Elba.”。 男 一 个 经 典 的 回 文 则 跟 开 玄 巴 拿 马 运河 的 个 人 英雄 事迹 有 


关 ， 这 人 句 话 是 “A man, a plan, a canal 


Panama!”。 


当然 ， 不 可 能 由 一 个 人 和 一 个 计划 就 能 完成 巴拿马 运河 的 修 玄 。 卡 耐 基 - 梅 隆 
大 学 的 一 位 计算 机 科学 研究 生 Jim Saxe 注 意 到 了 这 一 点 。1983 年 10 月 ，Jim 闲 来 无 
聊 ， 便 开始 琢磨 这 人 句 巴 拿 马 回 文 ， 并 把 它 扩展 为 : 


A man, a plan, a cat, a canal Panama? 


Jim 把 这 人 句 话 放 在 其 他 研究 生 可 以 看 到 的 计算 机 系统 上 。 于 是 ， 一 场 竞 赛 开始 
了 1 


耶鲁 大 学 的 Steve Smith 用 下 面 这 句 回 文 调 修 上 面 这 种 修 羡 运河 的 努力 : 
A tool, a fool, a pool- 一 一 loopaloofalootal 
几 个 星期 之 内 ，Guy Jacobson 把 巴拿马 回 文 扩 展 为 : 


Aman, aplan, acat, aham, ayak, ayam, ahat, a canal Panamal 


现在 ， 人 们 开始 对 这 个 巴拿马 回 文 产生 了 浓厚 的 兴趣 ! 刚 毕 业 不 久 的 Dan 
Hoey 编 号 了 一 个 计算 机 程序 ， 搜 寻 并 创建 了 下 面 这 个 奇观 : 


A man, a plan, a caret, a ban, a myriad, a sum, a lac, a liar, ahoop, a pint, a catalpa, 
a gas, an oil, a bird, a yell, a vat, a caw, a pax, a wag, a tax, a nay, a ram, a cap, a yam, a 


gay, a tsar, a wall, a car, a luger, a ward, a bin, a woman, a vassal, a wolf, a tuna, a nit, a 


pall, a fret, a watt, a bay, a daub, a tan, a cab, a datum, a gall, a hat, h fag, a zap, a say, a 
jaw, a lay, a wet, a gallop, a tug, a trot, a trap, a tram, a torr, a caper, a top, a tonk, a toll, 
a ball, f fair, a sax, a minim, a tenor, a bass, a passer, a capital, a rut, an amen, a ted, a 
cabal, a tang, a sun, an ass, a maw, a sag, a jam, a dam, a sub, a salt, an axon, a sail, an 
ad, a wadi, a radian, a room, a rood, a rip, a tad, a pariah, a revel, a reel, a reed, a pool, a 
plug, a pin, a peek, a parabola, a dog, a pat, a cud, a nu, a fan, a pal, a rum, a nod, an eta, 
a lag, an eel, a batik, a mug, a mot, a nap, a maxim, a mood, a leek, a grub, a gob, a gel, 
a drab, a citadel, a total, a cedar, a tap, a gag, a rat, a manor, a bar, a gal, a cola, a pap, a 
yaw, a tab, a raj, a gab, a nag, a panan, a bag, a jar, a bat, a way, a papa, a local, a gar, a 
baron, a mat, a rag, a gap, a tar, a decal, a tot, a led, a tic, a bard, a leg, a bog, a burg, a 
keel, a doom, a mix, a map, an atom, a gum, a kit, a baleen, a gala, a ten, a don, a mural, 
a pan, a faun, a ducat, a pagoda, a lob, a rap, a keep, a nikp, a gulp, a loop, a deer, a leer, 
a lever, a hair, a pad, a tapir, a door, a moor an aid, a raid, a wad, an alias, an Ox, an 
atlas, a bus, a madam ,a jag, a saw, a mass ,an anus, a gnat, a lab, a cadet, an em, a 
natural, a tip, a caress, a pass, a baronet, a minmax, a sari, a fall, a ballot, a knot, a pot, a 
rep, a carrot, a mart, a part, atort, agut, a poll, a gateway, a law, a jay, a sap, a zag, a fat, 
a hall, a gamut, a dab, a can, a tabu, a day, a batt, a waterfall, a patina, a nut, a flow, a 
lass, a van , a mow, a nib, a draw, a regular, a call, a war, a stay, a gam, a yap, a cam ,a 
ray, an ax, a tag, a wax, a paw, a cat, a valley, a drib, a lion, a saga, a plat, a catnip, a 


pooh, a rail, a calamus, a dairyman, a bater, a canal Panama. 


catalpa〈 你 可 能 正在 疑惑 它 是 什么 意思 ) 在 美语 中 是 一 种 树 的 名 称 。 你 可 以 
自己 去 查 一 下 axon 和 calamus 的 意思 。Dan 在 注释 中 说 明 ， 如 果 对 搜索 算法 略 加 改 
进 ， 可 以 使 这 个 序列 再 长 几 倍 。 


这 个 搜索 算法 很 有 创造 性 一 一 Dan 编 写 了 一 个 有 限 状 态 机 ， 测 试 一 串 不 完整 
的 回 文 。 在 每 种 情况 下 ， 回 文中 不 匹配 的 部 分 组 成 一 种 状态 。 从 最 初 的 回 文 出 
发 ，Dan 注 意 到 “a canal” 中 的 “a ca” 正 好 位 于 原先 那个 回 文 (A man, a plan, a canal 


一 一 Panama!) 的 中 间 ， 所 以 可 以 在 “a plan” 的 后 面 增加 适当 的 短语 ， 前 提 是 它 的 
反 序 正好 是 一 个 单词 或 单词 的 一 部 分 。 


怎样 在 “a plan” 后 面 插入 新 的 单词 呢 ? 首 先 插入 一 个 “a ca"， 这 样 就 形成 了 “..， 
a plan, a ca...a canal,.….” 的 序列 ， 如 果 “ca” 是 一 个 单词 就 大 功 告 成 。 但 现在 还 没有 ， 
所 以 要 增加 几 个 字母 和 “ca” 放 在 一 起 ， 使 之 形成 一 个 完整 的 单词 ， 然 后 在 它 的 右 
边 增加 这 几 个 字母 的 反 序 。 例 如 ， 若 在 “ca” 右 边 增加 了 “ret” 组 成 “caret*"， 那 么 就 
要 在 “caret” 的 右边 加 上 “ter”。 


在 每 次 插入 单词 时 ， 把 所 增加 的 单词 多 余 的 几 个 字母 反 序 ， 作 为 所 寻找 的 下 
一 个 单词 的 开始 部 分 。 表 4-2 展 示 了 这 个 过 程 。 


表 4-2 创建 回 文 


状态 “-aca”: “A man, a plan, ... a canal, Panama” 
JR 太 ec 93 65 39 
状态 “ret-”: ... a plan, a caret, ... a canal, Panama 
状态 “-aba”: “... a plan, a caret, ... a bater, a canal, ...” 
状态 “n-”: “... a caret, a ban, ...a bater, a canal,...” 
状态 “-adairyma”: “...a Caret, a ban, ... a dairyman, a bater, ...” 
状态 “-a”: “... a ban, a myriad, ... a dairyman, a bater, ...” 


有 限 状 态 机 可 以 接受 的 状态 就 是 那些 本 喘 就 是 回 文 的 未 匹配 部 分 。 换 句 话 
说 ， 在 任何 时 候 ， 如 果 刚 刚 插 入 的 几 个 字母 本 身 也 是 回 文 时 ， 任 务 就 宣告 完成 。 
在 这 个 例子 里 ， 最 后 一 次 插入 之 前 的 状态 是 “... a nag, gan, …”， 在 中 间 插 


入 “apa” 形 成 “...a nag, apagan, ...”。 由 于 “apa” 本 身 就 是 回 文 ， 所 以 算法 就 可 以 结 
束 。 


Dan 使 用 了 一 个 只 包含 名 词 的 小 型 单词 列表 。 如 果 不 是 这 样 ， 束 会 得 到 一 大 
串 “a how, a running, a would, an expect, an and...” 之 类 不 着 边际 的 短语 。 另 一 种 办 
法 是 选择 真正 的 在 线 词 典 《〈 而 不 仅仅 是 单词 列表 ) ， 它 能 提示 哪些 单词 是 名 词 。 
如 果 使 用 这 种 方法 ， 就 能 产生 一 个 真正 巨型 的 回 文 。 但 Dan 认 为 :“ 如 果 我 弄 出 1 
万 个 单词 的 回 文 ， 我 不 知道 是 否 会 有 人 去 认真 阅读 它 。 我 喜欢 现在 的 这 个 ， 因 为 
作为 炫 盗 的 资本 ， 这 些 已 经 足够 了 。 我 已 经 不 想 再 在 这 上 面 花 脑筋 了 。?” 他 说 的 没 


错 ! 


编程 挑战 
编写 回 文 


试 试 你 的 才华 : 编写 一 个 C 程 序 ， 产 生 1 万 个 单词 的 回 文 。 把 它 贴 到 Usenet 上 
的 rec.arts.startrek， 使 自己 名 扬 四 海 。 他 们 已 经 厌倦 了 讨论 Kirk 上 尉 的 中 间 名 字 ， 
喜欢 看 到 一 些 新 鲜 的 东西 。 


第 5 草 ”对 链接 的 思考 


Pall Mall Gazette 于 1889 年 3 月 11 日 描述 “托马斯 :爱迪生 先生 最 近 两 晚 都 没 合 
眼 ， 他 在 他 的 留声机 里 发 现 了 一 个 Bug”。 


-托马斯 :爱迪生 发 现 Bug，1878 年 


先驱 的 Harvard Mark 工 计算 机 系统 有 一 本 日 志 ， 现 保存 在 位 于 Smithsonian 的 
美国 国家 历史 博物 馆 。1947 年 9 月 9 日 的 日 志 记录 里 有 一 只 昆虫 的 遗 晓 ， 可 能 是 它 
偶尔 飞 到 书页 中 ， 当 书 合 上 时 被 夹 在 了 那里 。 记 录 里 有 个 标签 ， 标 题 是 “Relay 
#70 Panel F〈 飞 蛾 ) in relay”， 在 这 下 面 ， 记 录 了 这 么 一 句 话 “发 现 了 第 一 个 Bug 
实例 ”。 


一 一 Grace Hopper 发 现 Bug，1947 年 


当 我 们 刚 开 始 编程 时 ， 就 惊奇 地 发 现 要 让 程序 正确 运转 比 想象 的 要 难 。 我 们 
不 得 不 使 用 调试 技术 。 我 还 清楚 地 记得 那 一 刻 ， 从 那 时 开始 我 就 领悟 到 ， 从 我 上 自 
己 的 程序 里 寻找 错误 将 成 为 我 生活 的 一 个 重要 组 成 部 分 。 


一 一 Maurice Wilkes 发 现 Bug，1949 年 
程序 测试 可 用 于 发 现 Bug， 从 来 不 曾 有 一 个 测试 未 发 现 Bug。 


一 一 Edsger W. Dijkstra 发 现 Bug，1972 年 


5.1 函数 库 、 链 接 和 载 入 


一 开始 ， 让 我 们 回顾 一 下 链接 器 〈linker) 的 基础 知识 : 编译 器 创建 一 个 输出 
文件 ， 这 个 文件 包含 了 可 重 定位 的 对 象 。 这 些 对 象 就 是 与 源 程序 对 应 的 数据 和 机 
器 指令 。 本 章 所 使 用 的 实例 就 是 存在 于 所 有 SRV4 系 统 中 的 复杂 链接 形式 。 


链接 名 位 于 编译 过 程 的 哪 一 阶段 


绝 大 多 数 编译 器 并 不 是 一 个 单一 的 庞大 程序 。 它 们 通常 由 多 达 六 七 个 稍 小 的 
程序 所 组 成 ， 这 些 程序 由 一 个 叫 作 “编译 器 驱动 器 ”(compiler driver) 的 控制 程序 
来 调用 。 这 些 可 以 方便 地 从 编译 器 中 分 离 出 来 的 单独 程序 包括 预 处 理 器 
(preprocessor) 、 语 法 和 语义 检查 器 (syntactic and semantic checker) 、 代 码 生 
成 器 (code generator) 、 汇 编程 序 (assembler) 、 优 化 器 (optimizer) 、 链 接 器 
(linker) ， 当 然 还 包括 一 个 调用 所 有 这 些 程序 并 向 各 个 程序 传递 正确 选项 的 驱动 
器 程序 (driver program) 〈 见 图 5-1) 。 优 化 器 几乎 可 以 加 在 上 述 所 有 阶段 的 后 
面 。 当 前 的 SPARC 编 译 器 在 编译 器 的 前 端 和 后 端 之 间 的 中 间 表 示 层 执行 绝 大 部 分 
的 优化 措施 。 


前 端 
(语法 和 语义 分 析 ) 
阶段 0 


后 端 
(代码 生成 器 ) 


汇编 程序 


链接 - 载 入 器 


阶段 1 


图 5-1 ”编译 器 通常 分 割 成 几 个 更 小 的 程序 


它们 之 所 以 分 成 几 个 独立 的 程序 ， 是 因为 在 程序 中 如 果 每 个 具有 特定 功能 的 
部 分 自身 都 是 一 个 完整 的 程序 ， 就 会 更 容易 设计 和 维护 。 例 如 ， 控 制 预 处 理 过 程 
的 规则 是 预 处 理 阶段 所 独 有 的 ， 它 跟 C 语 言 的 其 他 部 分 并 没 多 少 共同 之 处 。C 预 处 
理 嚣 经常 (但 并 不 总 是 ) 是 一 个 独立 的 程序 。 如 果 代 码 生成 器 (又 称 为 “后 端 ”) 
被 编写 成 一 个 独立 的 程序 ， 它 很 可 能 可 以 被 其 他 语言 共享 。 这 种 设计 方法 的 代价 
是 运行 几 个 更 小 的 程序 比 运行 一 个 大 型 程序 所 花费 的 时 间 要 长 (因为 存在 初始 化 
进程 以 及 在 各 个 阶段 之 间 传 递 信息 的 开销 ) 。 可 以 使 用 -# 选 项 查看 编译 过 程 的 各 
个 独立 阶段 。-V 选 项 能 提供 版 本 信息 。 


可 以 通过 给 编译 器 驱动 器 一 个 特殊 的 -W 选 项 (表示 传递 这 个 选项 到 那个 阶 
段 ) 癌 各 个 阶段 传递 选项 信息 。“W” 后 面 跟 一 个 字符 (提示 哪个 阶段 ，， 一 个 去 


号 ， 然 后 就是 具体 的 选项 。 代 表 各 个 阶段 的 字符 也 出 现在 图 5-1 中 。 


所 以 ， 如 果 要 从 编译 器 驱动 器 问 链 接 器 传递 任何 选项 ， 必 须 在 具体 的 选项 前 
面 加 上 -Wi 前 绥 ， 告 诉 编译 吉 驱 动 器 这 个 选项 是 想 传 给 链接 器 ， 而 不 是 预 处 理 露 
或 编译 器 或 汇编 程序 或 其 他 编译 阶段 。 下 面 这 条 命令 : 


cc -Wl1, -m main.c > main.linker.map 


将 -m 选 项 传递 给 链接 - 载 入 器 ， 要 求 它 产 生 链 接 器 映像 。 你 应 该 试 上 几 次 ， 看 
看 它 所 产生 的 是 何 种 信息 。 


目标 文件 并 不 能 直接 执行 ， 它 首先 需要 载 入 到 链接 器 中 。 链 接 器 确认 main 函 
数 为 初始 进入 点 《程序 开始 执行 的 地 方 ) ， 把 符号 引用 〈symbolic reference) 绑 
定 到 内 存 地 址 ， 把 所 有 的 目标 文件 集中 在 一 起 ， 再 加 上 库 文 件 ， 从 而 产生 可 执行 
文件 。 


用 于 PC 的 链接 机 制 与 那些 用 于 更 大 系统 的 链接 机 制 有 着 巨大 的 差别 。PC 的 链 
接 器 一 般 只 提供 几 个 基本 的 IO 服务 ， 就 是 被 称 作 BIOS 的 程序 。 它 们 存在 于 内 存 
中 国定 的 地 点 ， 并 不 是 每 个 可 执行 文件 的 一 部 分 。 如 果 PC 程 序 或 程序 套件 需要 更 
高 级 的 服务 ， 可 以 通过 库 函 数 提供 ， 但 编译 器 必须 把 库 函 数 链接 到 每 个 可 执行 文 
件 中 。 在 MS-DOS 中 ,没有 办 法 推断 出 函数 库 对 其 中 哪些 程序 较为 常用 ， 从 而 只 
PC Es 


UNIX 系 统 以 前 也 是 如 此 。 当 链接 程序 时 ， 需 要 使 用 的 每 个 库 函 数 的 一 份 副 
本 被 加 入 到 可 执行 文件 中 。 近 几 年 ， 一 种 更 为 现代 和 优越 的 被 称 作 动态 链接 的 方 
法 逐渐 被 采用 。 动 态 链接 允许 系统 提供 一 个 庞大 的 函数 库 集合 ， 可 以 提供 许多 有 
用 的 服务 。 但 是 ， 程 序 将 在 运行 时 寻找 它们 ， 而 不 是 把 这 些 函 数 库 的 二 进 制 代 码 
作为 自身 可 执行 文件 的 一 部 分 。IBM 的 OS/2 操 作 系 统 具 有 动态 链接 的 功能 ， 
Microsoft 的 Windows NT 操作 系统 也 具有 动态 链接 功能 。Microsoft 在 它 的 Windows 
栗 面 操作 系统 中 也 采用 了 动态 链接 。 


如 果 函 数 库 的 一 份 副本 是 可 执行 文件 的 物理 组 成 部 分 ， 那 么 我 们 称 之 为 静态 
链接 如 果 可 执行 文件 只 是 包含 了 文件 名 ， 让 载 入 器 在 运行 时 能 够 寻找 程序 所 需 
要 的 函数 库 ， 那 么 我 们 称 之 为 动态 链接 。 收 集 模块 准备 执行 的 3 个 阶段 的 规范 名 
称 是 链接 -编辑 〈link-editing) 、 载 入 (loading〉 和 运行 时 链接 (runtime 
linking〉。 静 态 链接 的 模块 被 链接 编辑 并 载 入 以 便 运行 。 动 态 链 接 的 模块 被 链接 
编辑 后 载 入 ， 并 在 运行 时 进行 链接 以 便 运行 。 程 序 执行 时 ， 在 main() 函 数 被 调用 
前 ， 运 行 时 载 入 器 把 共享 的 数据 对 象 载 入 到 进程 的 地 址 空间 。 外 部 函数 被 真正 调 
用 之 前 ， 运 行 时 载 入 器 并 不 解析 它们 。 所 以 即使 链接 了 函数 库 ， 如 果 并 没有 实际 
调用 ， 也 不 会 带 来 额外 开销 。 这 两 种 链接 方法 在 图 5-2 中 做 了 比较 。 


750 KB 


506 KB 


尖 a.out 
产生 


静态 链接 


1 KB 


动态 链接 库 函 数 在 运行 时 被 映射 到 进程 中 


注 : 图 中 的 文件 大 小 仅 用 于 说 明 ， 与 实际 情况 可 能 不 同 


图 5-2 ”静态 链接 与 动态 链接 


即使 是 在 静态 链接 中 ， 整 个 libc.a 文 件 也 并 没有 被 全 部 闭 入 到 可 执行 文件 中 ， 
所 闭 入 的 只 是 所 需要 的 函数 。 


5.2 ”动态 链接 的 优点 


动态 链接 是 一 种 更 为 现代 的 方法 ， 它 的 优点 是 可 执行 文件 的 体积 可 以 非常 
小 。 昌 然 运 行 速度 稍 慢 一 些 ， 但 动态 链接 能 够 更 加 有 效 地 利用 磁盘 空间 ， 而 且 链 
接 -编辑 阶段 的 时 间 也 会 缩短 (因为 链接 器 的 有 些 工作 被 推迟 到 载 入 时 )。 


小 局 发 
动态 链接 的 目的 之 一 是 ABI 


动态 链接 的 主要 目的 就 是 把 程序 与 它们 使 用 的 特定 的 函数 库 版 本 中 分 离开 
来 。 取 而 代 之 的 是 ， 我 们 约定 由 系统 向 程序 提供 一 个 接口 ， 该 接口 保持 稳定 ， 不 
随时 间 和 操作 系统 的 后 续 版 本 发 生变 化 。 


程序 可 以 调用 接口 所 承诺 的 服务 ， 而 不 必 考 虑 这 些 功能 是 怎样 提供 的 或 者 它 
们 的 底层 实现 是 否 改 变 。 由 于 它 是 介 于 应 用 程序 和 函数 库 二 进 制 可 执行 文件 所 提 
供 的 服务 之 间 的 接口 ， 所 以 称 它 为 应 用 程序 二 进 制 接口 (Application Binary 
Interface, ABI) 。 


将 基于 AT&T 的 SVr4 的 UNIX 世 界 进行 统一 的 目的 就 是 提供 一 个 单独 的 ABI。 
ABI 保 证 函数 库存 在 于 所 有 遵循 约定 的 机 器 中 ， 并 保证 接口 的 完整 性 。 动 态 链 接 
必须 保证 4 个 特定 的 函数 库 : libc《〈C 运 行 时 函数 库 ) 、libsys (其 他 系统 函数 ) 、 
libX〈X windowing) 和 ]ibnsl (网 络 服务 ) 。 其 他 的 函数 库 可 以 通过 静态 链接 ， 
但 最 好 采用 动态 链接 。 


过 去 ， 应 用 程序 销售 商 每 次 出 现 新 版 本 的 操作 系统 或 函数 库 时 都 必须 重新 链 
接 它 们 的 软件 。 这 带 来 了 巨大 的 额外 工作 量 ， 因 为 需要 照顾 许多 方方面面 。ABI 
就 不 需要 这 样 做 ， 它 保证 运作 良好 的 应 用 程序 不 会 受 同 样 运 作 民 好 的 底层 系统 软 
件 升级 的 影响 。 


尽管 单个 可 执行 文件 的 启动 速度 稍 受 影响 ， 但 动态 链接 可 以 从 以 下 两 个 方面 


提高 性 外 


EC 


oO 


1. 动态 链接 可 执行 文件 比 功能 相同 的 静态 链接 可 执行 文件 的 体积 小 。 它 能 
够 节省 磁盘 空间 和 虚拟 内 存 ， 因 为 函数 库 只 有 在 需要 时 才 和 被 映射 到 进程 中 。 以 
前 ， 避 免 把 函数 库 的 副本 绑 定 到 每 个 可 执行 文件 的 唯一 方法 就 是 把 服务 置 于 内 核 
中 而 不 是 函数 库 中 ， 这 就 带 来 了 可 怕 的 “内 核 膀 胀 ? 问 题 。 


2. 所 有 动态 链接 到 茶 个 特定 函数 库 的 可 执行 文件 在 运行 时 共享 该 函数 库 的 
一 个 单独 副本 。 操 作 系统 内 核 保 证 映射 到 内 存 中 的 函数 库 可 以 被 所 有 使 用 它们 的 
进程 共享 。 这 就 提供 了 更 好 的 IO 和 交换 空间 利用 率 ， 节 省 了 物理 内 存 ， 从 而 提高 
了 系统 的 整体 性 能 。 如 果 可 执行 文件 是 静态 链接 的 ， 那 么 每 个 文件 都 将 拥有 一 份 
函数 库 的 副本 ， 显 然 极 为 浪费 。 


例如 ， 如 果 有 8 个 基于 XView™M 函 数 库 的 应 用 程序 正在 运行 ， 只 需要 把 一 个 
XView 函 数 库 文本 段 映射 到 内 存 中 。 第 一 个 进程 的 mmapI1 调 用 将 使 内 核 把 共享 对 
象 映射 到 内 存 中 。 其 余 7 个 进程 的 mmap 调 用 将 使 内 核 把 已 经 映射 到 内 存 中 的 对 象 
由 各 个 进程 共享 。 这 8 个 进程 的 每 一 个 都 将 共享 内 存 中 的 同一 份 XView 函 数 库 副 
本 。 如 果 函 数 库 是 静态 链接 的 ， 将 会 有 8 份 函数 库 副本 映射 到 内 存 中 ， 这 将 消耗 
更 多 的 物理 内 存 ， 引 起 更 多 的 换 页 。 


动态 链接 使 得 函数 库 的 版 本 升级 更 为 容易 。 新 的 函数 库 可 以 随时 发 布 ， 只 要 
安装 到 系统 中 ， 旧 的 程序 就 能 够 自动 获得 新 版 本 函数 库 的 优点 而 无 须 重 新 链接 。 


最 后 (虽然 并 不 和 常见， 但 仍 可 能 出 现 ) ， 动 态 链接 允许 用 户 在 运行 时 选择 需 
要 执行 的 函数 库 。 这 就 使 为 了 提高 速度 或 提高 内 存 使 用 效率 或 包含 额外 的 调试 信 
奶 而 创建 新 版 本 的 函数 库 是 完全 可 能 的 ， 用 户 可 以 根据 自己 的 喜好 ， 在 程序 执行 
时 用 二 个 库 交 御 取代 男 一 个 库 交 件 。 


动态 链接 是 一 种 “just-in-time (JIT) ”链接 ， 这 意味 着 程序 在 运行 时 必须 能 够 
找到 它们 所 需要 的 函数 库 。 链 接 器 通过 把 库 文件 名 或 路 径 名 植 入 可 执行 文件 中 来 
做 到 这 一 点 。 这 意味 着 ， 函 数 库 的 路 径 不 能 随意 移动 。 如 果 把 程序 链接 
到 /user/lib/libthread.so 库 ， 那 么 就 不 能 把 该 函数 库 移 动 到 其 他 的 目录 ， 除 非 在 链接 
器 中 进行 特别 说 明 。 和 否则 ， 当 程序 调用 该 函数 库 的 函数 时 ， 就 会 在 运行 时 导致 失 
败 ， 并 给 出 这 样 一 条 错误 信息 : 


ld.so.1: main: fatal: libthread.so: can’t open file: errno = 2 


当 在 一 台 机 器 上 编译 完 程序 后 ， 把 它 拿 到 另 一 台 不 同 的 机 器 上 运行 时 ， 也 可 
能 出 现 这 种 情况 。 执 行程 序 的 机 器 必须 具有 所 有 该 程序 需要 链接 的 函数 库 ， 而 且 
这 些 函数 库 必须 位 于 链接 器 中 所 说 明 的 目录 。 对 于 标准 系统 函数 库 而 言 ， 这 并 不 


成 问题 。 


使 用 共享 函数 库 的 主要 原因 就 是 获得 ABI 的 好 处 一 一 你 的 软件 不 必 因 新 版 本 
函数 库 或 操作 系统 的 发 布 而 重新 链接 。 附 带 的 一 个 好 处 是 ， 它 也 能 提高 系统 的 总 
体 性 能 。 


任何 人 都 可 以 创建 静态 或 动态 的 函数 库 。 只 需 简 单 地 编译 一 些 不 包含 main 函 
数 的 代码 ， 并 把 编译 所 生 的 .o 文 件 用 正确 的 实用 工具 进行 处 理 : 如 果 是 静态 库 ， 
则 使 用 ar;， 如 果 是 动态 库 ， 则 使 用 ld。 


软件 信条 


只 使 用 动态 链接 


动态 链接 现在 是 运行 System V release 4 UNIX 的 计算 机 所 采用 的 缺 省 设置 。 
从 作用 上 看 ， 项 态 链接 现 已 过 时 ， 只 能 静 静 躺 在 一 边 睡 大 觉 。 


使 用 静态 链接 的 最 大 危险 在 于 将 来 版 本 的 操作 系统 可 能 与 可 执行 文件 所 绑 定 
的 系统 函数 库 不 兼容 。 如 果 应 用 程序 静态 链接 于 版 本 N 的 操作 系统 中 ， 则 当 把 程 
序 运行 于 版 本 N+1 的 操作 系统 上 时 ， 它 可 能 会 立即 崩溃 ， 也 可 能 出 现 一 个 不 明显 


的 错误 。 


我 们 无 法 保证 早期 版 本 的 系统 函数 库 能 够 在 后 期 版 本 的 系统 上 正确 地 运行 。 
事实 上 ， 反 过 来 考虑 倒 还 比较 保险 一 点 。 但 是 ， 如 果 应 用 程序 动态 链接 到 版 本 N 
的 系统 函数 库 ， 那 么 当 它 运行 于 版 本 N+1 的 操作 系统 上 时 ， 它 就 会 正确 选取 N+1 
版 本 的 系统 函数 库 。 相 反 ， 静 态 链接 的 应 用 程序 不 得 不 针对 每 个 新 版 本 的 操作 系 
统 进行 重新 生成 以 保证 能 够 运行 。 


而 且 ， 有 些 函 数 库 〈 如 libaio.so、1libdl.so、1libsys.so、1libsolv.so 以 及 
librpcsvc.so 等 ) 只 能 以 动态 链接 的 形式 使 用 。 如 果 在 应 用 程序 中 使 用 了 这 些 函数 
库 中 的 任何 一 个 ， 你 的 程序 就 必须 使 用 动态 链接 。 最 好 的 策略 就 是 所 有 的 应 用 程 
序 都 使 用 动态 链接 ， 这 就 可 以 避免 可 能 产生 的 问题 。 


静态 库 被 称 作 archive， 它 们 通过 ar 〈 用 于 archive 的 实用 工具 ) 来 创建 和 更 
新 。ar 工 具 的 名 字 取 得 不 太 好 ， 如 果 广 告 学 的 原理 也 适用 于 软件 的 话 ， 那 么 它 应 
该 取 一 个 类 似 glue_files_together《 把 文件 烙 在 一 起 ) 的 名 字 ， 或 干脆 就 取 
static_library_updater (静态 库 更 新 器 ) 。 况 态 库 约定 在 它们 的 文件 名 中 使 


用 “.a” 作 为 扩展 名 。 我 在 这 里 没有 给 出 一 个 创建 静态 库 的 例子 ， 因 为 它们 现在 已 
经 过 时 ， 我 并 不 想 吉 励 任何 人 停留 在 精神 世界 进行 交流 。 


在 SVr3 中 ， 还 存在 一 种 中 间 性 质 的 链接 ， 介 于 静态 链接 和 动态 链接 之 间 ， 称 
为 “静态 共享 库 ”(static shared libraries) 。 在 生命 期 内 ， 它 们 的 地 址 始终 固定 ， 这 
样 它们 就 可 以 直接 绑 定 到 应 用 程序 中 ， 较 之 动态 链接 少 了 一 层 中 间 环 节 。 另 外 ， 
它们 显得 不 是 很 灵活 ， 而 且 需 要 操作 系统 提供 很 多 文 持 。 因 此 ， 以 后 不 再 讨论 它 
们 。 


动态 链接 库 由 链接 编辑 器 ld 创建 。 根 据 约 定 ， 动 态 库 的 文件 扩展 名 为 “.so”， 
表示 “shared object” (共享 对 象 ) 每 一 个 链接 到 该 函数 库 的 程序 都 共享 它 的 同 
一 份 副本 。 而 静态 链接 则 相反 ， 每 个 对 象 都 拥有 一 份 该 函数 库 内 容 的 副本 ， 这 显 
得 很 浪费 。 动 态 链接 库 的 最 简单 形式 可 以 通过 在 cc 命令 上 加 上 -G 选 项 来 创建 ， 如 
下 所 示 : 


% cat tomato.c 
my_lib function() { printf("library routine called\n"); } 


% cc -o libfruit.so -G tomato.c 


然后 ， 就 可 以 利用 这 个 动态 链接 库 来 编写 程序 了 ， 并 且 使 用 下 面 这 种 方法 与 
函数 库 进行 链接 : 


% cat test.c 
main() { my_lib function(); } 


% cc test.c -L/home/linden -R/home/linden -1Lfruit 
% a.out 
library routine called 


-L/home/linden 和 -Rhome/linden 选 项 分 别 告诉 链接 器 在 链接 时 和 运行 时 从 哪 
个 目录 寻找 需要 链接 的 函数 库 。 


你 很 可 能 还 想 使 用 编译 占 选 项 -K pic 来 为 函数 库 产生 与 位 置 无 关 的 代码 。 与 
位 置 无 关 的 代码 表示 用 这 种 方法 产生 的 代码 保证 对 于 任何 全 局 数据 的 访问 都 是 通 


过 额外 的 间接 方法 来 完成 的 。 这 使 它 很 容易 对 数据 进行 重新 定位 ， 只 要 简单 地 修 
改 全 局 偏 移 量 表 的 其 中 一 个 值 就 可 以 了 。 类 似 地 ， 每 个 函数 调用 的 产生 就 像 是 通 
过 过 程 链 接 表 的 茶 个 间接 地 址 所 产生 的 一 样 。 这 样 ， 文 本 可 以 很 容易 地 重新 定位 
到 任何 地 方 ， 只 要 修改 一 下 偏 移 量 表 束 可 以 了 。 所 以 当代 码 在 运行 时 被 映 冉 进来 
时 ， 运 行 时 链接 器 可 以 直接 把 它们 放 在 任何 空 几 的 地 方 ， 而 代码 本 里 并 不 需要 修 
Ns 


在 缺 省 情况 下 ， 编 译 器 并 不 产生 与 位 置 无 关 的 代码 ， 因 为 额外 的 指针 解除 引 
用 操作 将 使 程序 在 运行 时 稍稍 变 慢 。 然 而 ， 如 果 不 使 用 与 位 置 无 关 的 代码 ， 则 所 
产生 的 代码 就 会 被 对 应 到 固定 的 地 址 ， 这 对 于 可 执行 文件 来 说 确实 很 好 ， 但 对 于 
Re 因为 现在 每 个 全 局 引用 就 不 得 不 在 运行 时 通过 修改 页 
面 安排 到 固定 的 位 置 ， 这 就 使 得 页 面 无 法 共享 。 


运行 时 链接 器 总 能 够 安排 对 页 面 的 引用 。 但 是 ， 使 用 位 置 无 关 代 码 可 以 极 大 
地 简化 任务 。 当 然 需 要 权衡 一 下 ， 位 置 无 关 代 码 与 由 运行 时 链接 器 安排 代码 相 
比 ， 速 度 是 快 了 还 是 慢 了 。 根 据 经 验 ， 对 于 函数 库 应 该 始终 使 用 与 位 置 无 关 的 代 
码 。 对 于 共享 库 ， 与 位 置 无 关 的 代码 显得 格外 有 用 ， 因 为 每 个 使 用 共享 库 的 进程 
一 般 都 会 把 它 映 射 到 不 同 的 虚拟 地 址 (尽管 共享 同一 份 物理 副本 〉。 


一 个 相关 的 术语 是 “ 纯 代 码 ”(pure code) 。 纯 可 执行 文件 是 只 包含 代码 〈 无 
静态 或 初始 化 过 的 数据 〉 的 文件 。 之 所 以 称 为 “ 纯 "， 是 因为 它 不 必 进 行 修改 就 能 
被 其 他 特定 的 进程 执行 。 它 从 堆栈 或 者 其 他 非 纯 ) 段 引 用 数据 。 纯 代码 段 可 以 
被 共享 。 如 果 生 成 与 位 置 无 关 的 代码 (意味 着 共享 ) ， 你 通常 也 希望 它 是 纯 代 
码 。 


5.3 ”函数 库 链 接 的 5 个 特殊 秘密 


当 使 用 函数 库 时 ， 需 要 掌握 5 个 基本 的 不 明显 的 约定 。 绝 大 多 数 C 语 言 图 书 或 
手册 对 此 并 没有 作出 清楚 的 解释 。 这 可 能 是 因为 编程 语言 的 文档 认为 链接 是 操作 
系统 的 一 部 分 。 但 是 ， 设 计 操作 系统 的 人 却 认为 链接 是 语言 的 一 部 分 。 结 果 ， 除 
非 是 链接 器 开发 队伍 的 人 参与 进来 ， 否 则 人 们 项 多 也 就 偶尔 提 到 它 一 下 。 这 里 展 
示 了 关于 UNIX 链 接 的 真实 情况 。 


1. 动态 库 文件 的 扩展 名 是 “.so”， 而 静态 库 文件 的 扩展 名 是 “. 


按照 约定 ， 所 有 动态 库 的 文件 名 的 形式 是 libname.so (可 能 在 名 字 中 加 入 版 本 
号 ) 。 这 样 ， 线 程 函 数 库 便 被 称 作 ]ibthread.so。 融 态 库 的 文件 名 形式 是 
libname.a， 共 享 archive 的 文件 名 形式 是 libname.sa。 共 享 archive 只 是 一 种 过 渡 形 


式 ， 帮 助人 们 从 静态 库 转 变 到 动态 库 。 共 享 archive 现 在 也 已 过 时 。 


2. 例如 ， 通 过 -lthread 选 项 ， 告 诉 编译 链接 到 libthread.so 


传 给 C 编 译 器 的 命令 行 参数 里 并 没有 提 到 函数 库 的 完整 路 径 名 。 它 甚至 没有 
提 到 在 函数 库 目 录 中 该 文件 的 完整 名 字 ! 实际 上 ， 编 译 器 被 告知 根据 选项 -Iname 
链接 到 相应 的 函数 库 ， 函 数 库 的 名 字 是 linbname.so 一 一 换 句 话说 ，”“lib” 部 分 和 文 
件 的 扩展 名 被 省 掉 了 ， 但 在 前 面 加 了 一 个 “-P。 


3. 编译 器 期 望 在 确定 的 目录 找到 库 


这 里 你 可 能 会 疑惑 ， 编 译 器 是 怎么 知道 该 往 什么 目录 寻找 函数 库 呢 ?就 像 存 
在 一 种 特殊 的 规则 用 于 碍 找 头 文件 一 样 ， 编 译 器 也 自 有 办 法 来 寻找 函数 库 。 它 碍 
看 一 些 特殊 的 位 置 ， 如 在 /usr/lib 中 查找 函数 库 。 例 如 ， 线 程 库 位 
于 /usr/lib/libthread.so。 


编译 器 选项 -Lpathname 告 诉 链接 器 一 些 其 他 的 目录 ， 如 果 命 令 中 加 入 了 -l 选 


项 ， 链 接 器 就 往 这 些 目录 查找 函数 库 。 系 统 中 的 环境 变量 LD_LIBRARY_PATH 和 
LD_RUN_PATH 用 于 提供 这 类 信息 。 出 于 安全 性 、 性 能 和 创建 /运行 独立 性 方面 的 
考虑 ， 使 用 环境 变量 的 做 法 现在 已 经 不 提倡 。 一 般 还 是 在 链接 时 使 用 -Lpathname 
和 -Rpathname 选 项 。 


4. 观察 头 文 件 ， 确 认 所 使 用 的 函数 库 


你 有 可 能 遇见 的 另 一 个 关键 问题 是 “我 怎么 知道 必须 链接 到 哪些 函数 库 ”。 答 
案 正 如 ObiWan Kenobi 在 Star Wars 所 清楚 表达 的 那样 〈 大 意 ) :“ 户 殉 ， 使 用 源 
码 !*。 如 果 观 察 程 序 中 的 源 代码 ， 就 会 发 现 自己 调用 了 一 些 自己 不 曾 实 现 的 函 
数 。 例 如 ， 如 果 程 序 跟 三 角 有 关 ， 可 能 会 调用 像 sin() 和 cos() 这 样 的 函数 ， 它 们 可 
以 在 math 函 数 库 中 找到 。 文 档 中 显示 了 每 个 函数 期 望 接 收 的 正确 的 参数 类 型 ， 并 
说 明 它 位 于 哪个 函数 库 。 


一 个 很 好 的 建议 就 是 可 以 观察 程序 所 使 用 的 ##nclude 指 令 。 在 程序 中 所 包含 的 
每 个 头 文件 都 可 能 代表 一 个 必须 链接 的 库 。 这 个 建议 也 适用 于 C++。 这 里 出 现 了 
一 个 名 字 不 一 致 的 大 问题 。 头 文件 的 名 字 通 常 并 不 与 它 所 对 应 的 函数 库 名 相似 。 
非常 遗憾 ! 这 是 你 “不 得 不 知道 的 *C 语 言 的 一 个 混乱 之 处 。 表 5-1 展 示 了 一 些 常见 
的 例子 。 


表 5-1 Solaris 2.x 下 的 库 约 定 


#include 文件 名 库 路 径 名 所 用 的 编译 器 选项 
<math.h> /usr/lib/libm.so -1m 
<math.h> /usr/lib/libm.a -dn -lm 


<stdio.h> /usr/lib/libc.so 自动 链接 


“/usr/openwin/include/X11.h” /usr/openwin/lib/libX11.so -L/usr/openwin/lib ~lX11 
<thread.h> /usr/lib/libthread.so -lthread 
<curses.h> /usr/lib/libcurses.a -lcurses 
<sys/socket.h> /usr/lib/libsocket.so -lsocket 


函数 库 链 接 所 存在 的 男 一 个 不 一 致 性 就 是 函数 库 包含 许多 函数 的 定义 ， 但 这 
些 函 数 的 原型 声明 却 散 布 于 多 个 头 文 件 中 。 例 如 ， 在 头 文件 <string.h>、<stdio.h> 
和 <time.h> 中 声明 的 函数 通常 是 在 同一 个 库 libc.so 中 提供 。 如 果 你 不 信 ， 可 以 使 用 
nm 命令 列 出 函数 库 所 包含 的 函数 。 在 下 面 的 小 启发 栏目 里 我 将 详细 讨论 这 一 点 。 


小 启发 


怎样 在 函数 库 中 观察 一 个 符号 


如 果 在 链接 程序 时 遇 到 下 面 这 种 错误 : 


1d: underfined symbol 
_xdr_reference 
*** Error code 2 
make: Fatal error: Command failed for target ’prog’ 


它 提示 找 不 到 符号 xdr_reference 的 定义 。 这 里 有 一 种 方法 ， 可 以 通过 它 找到 
需要 链接 的 库 。 基 本 的 想法 是 使 用 nm 命令 在 masrwlib 的 每 个 函数 库 中 浏览 所 有 的 符 
号 ， 从 中 寻找 所 丢失 的 符号 。 在 缺 省 情况 下 ， 链 接 器 会 在 /usyccslib 和 /usrwlib 中 得 


找 ， 你 也 应 该 从 这 两 个 地 方 着 手 ， 如 果 在 那里 找 不 到 就 进一步 扩展 查找 范围 (如 


sur/openwin/1ib) 。 


% cd /usr/lib 

% foreach i (lib?*) 

? echo $i 

? nm $i | grep xdr_refrence | grep -v UNDEF 
? end 

libc.so 


libnsl.so 
[2491] | 217628 | 196 | FUNC | GLOB | 6 | 8 | xdr_reference 
libposix4.so 


这 会 在 该 目录 中 的 所 有 函数 库 上 运行 nm 命令 ， 它 显示 函数 库 中 已 知 的 符号 列 
表 。 通 过 grep 设 定 需要 搜索 的 符号 ， 并 过 滤 掉 标记 为 UNDEF 的 符号 〈 在 该 函数 库 
中 有 引用 ， 但 并 不 是 在 此 处 定义 ) 。 结 果 显 示 xdr_reference 位 于 libnsl 库 。 需 要 在 
编译 医 命 令 行 的 末尾 加 上 -lnsl。 


5. 与 提取 动态 库 中 的 符号 相 比 ， 静 态 库 中 的 符号 提取 的 方法 限制 更 严 


最 后 ， 在 动态 链接 和 静态 链接 的 链接 语义 上 还 存在 一 个 额外 的 巨大 区 别 ， 它 
经 第 会 迷惑 不 够 仔细 的 用 户 。archive( 静 态 库 ) 与 共享 对 象 〈 动 态 库 ) 的 动作 不 
同 。 在 动态 链接 中 ， 所 有 的 库 符 号 进入 输出 文件 的 虚拟 地 址 空间 中 ， 所 有 的 符号 
对 于 链接 在 一 起 的 所 有 文件 都 是 可 见 的 。 相 反 ， 对 于 静态 链接 ， 在 处 理 archive 
时 ， 它 只 是 在 archive 中 查找 载 入 器 当时 所 知道 的 未 定义 符号 。 


简 而 言 之 ， 在 编译 占 命 令 行 中 各 个 静态 链接 库 出 现 的 顺序 是 非常 重要 的 。 链 
接 器 会 被 “函数 库 是 在 哪里 提 到 的 ? “ 它 是 以 什么 次 序 出 现 的 ? ”之 类 的 问题 搞 得 
手忙脚乱 ， 因 为 符号 是 通过 从 左 到 右 的 顺序 进行 解析 的 。 如 果 相 同 的 符号 在 两 个 
不 同 的 函数 库 中 有 不 同 的 定义 ， 且 静态 库 出 现 的 顺序 不 同 ， 其 结果 就 有 可 能 不 
同 。 夺 是 你 故意 如 此 ， 对 于 怎样 避免 这 种 做 法 可 能 带 来 的 危险 ， 你 想必 已 是 胸 有 


成 体 了 。 


如 果 在 自己 的 代码 之 前 引入 静态 库 ， 叉 会 带 来 男 一 个 问题 。 因 为 此 时 尚未 出 
现 未 定义 的 符号 ， 所 以 它 不 会 从 函数 库 中 提取 任何 符号 。 接 着 ， 当 目标 文件 被 链 
接 占 处 理 时 ， 它 所 有 的 对 函数 库 的 引用 都 将 是 未 实现 的 ! 虽然 自 UNIX 诞 生 以 
来 ， 情 况 一 直 就 是 这 样 ， 但 许多 人 对 此 显然 没有 思想 准备 。 只 有 极 少数 的 命令 要 
求 它们 的 参数 以 系 个 特定 的 顺序 出 现 ， 一 旦 搞 错 顺 序 ， 它 们 通常 直接 发 出 错误 信 
恩 。 所 有 的 新 手 在 明白 这 些 概 念 之 前 对 链接 的 这 方面 问题 感到 困惑 不 已 。 而 一 旦 
明白 了 概念 ， 又 对 概念 本 身 感 到 困惑 。 


这 个 问题 最 党 出 现 于 有 人 链接 math 库 的 时 候 。math 库 在 许多 测试 程序 和 应 用 
程序 中 使 用 频率 非常 高 ， 所 以 我 们 想 章 力 提升 它 的 运行 时 性 能 ， 哪 伯 只 是 微 竹 其 
微 的 提升 。 结 果 ，libm 经 常 是 以 静态 链接 的 archive 形 式 存 在 。 如 果 你 的 程序 使 用 
了 一 些 数 学 函数 如 sin0) 等 ， 帮 像 下 面 这 样 进行 静态 链接 : 


cc -lm main.c 


则 会 得 到 一 条 错误 信息 ， 如 下 : 


Undefined first referenced 
symbol in file 
sin main.o 


ld: fatal: Symbol referencing errors. No output written to a.out 


为 了 能 从 math 库 中 提取 所 需 的 符 写 ， 首 先 需 要 让 文件 包含 未 解析 的 引用 ， 如 
下 态 欠 


cc main.c -1Lm 


对 于 不 够 仔细 的 人 ， 这 样 显 然 会 带 来 无 尽 的 烦恼 。 每 个 人 都 习惯 了 通用 的 命 
令 形式 < 命令 > < 选项 >< 文 件 >， 所 以 让 链接 器 采用 < 命令 >< 文 件 >< 选 项 > 这 样 的 约 
定 是 很 容易 引起 混 清 的 。 而 且 ， 它 会 平静 地 接受 第 一 种 形式 ， 却 给 出 错误 的 结 
， 这 进一步 增加 了 引起 混淆 的 可 能 性 。SUN 的 编译 器 小 组 对 编译 器 驱动 的 某 个 


涅 


方面 进行 了 改进 ， 这 样 它们 就 能 处 理 这 种 情况 。 我 们 修改 了 SunOS 4.x 中 的 独立 编 
译 器 驱动 ， 从 SC 0.0 转 到 SC 2.0.1， 这 样 ， 当 用 户 忽 略 了 -lm 选项 时 ， 编 译 器 也 能 
进行 正确 的 处 理 。 但 是 ， 虽 然 它 能 够 正确 执行 ， 但 毕竟 与 AT&T 的 做 法 不 一 样 ， 
从 而 破坏 了 与 System V Interface Definition 〈 系 统 5 界面 定义 ) 的 一 致 性 ， 所 以 我 
们 不 得 不 恢复 原来 的 做 法 。 无 论 如 何 ， 从 SunOS 5.2 起 ， 我 们 提供 了 动态 链接 版 本 
的 math 库 ， 它 位 于 /usr/lib/libm.so。 


小 局 发 
函数 库 选 项 应 置 于 何 处 


始终 将 -1 函数 库 选 项 放 在 编译 命令 行 的 最 右边 。 


在 PC 上 ， 当 Borland 的 编译 器 驱动 器 试图 猜测 需要 链接 的 浮 点 库 时 ， 也 会 出 现 
类 似 的 问题 。 不 幸 的 是 ， 它 们 有 时 会 猜测 错误 ， 从 而 导致 下 面 的 错误 : 


scanf : floating point formats not linked 


器 


Abnormal program termination(scanf: 浮 点 格式 未 链接 ， 程 序 异 常 中 止 ) 


当 程 序 在 scanfO 或 printfO 中 使 用 浮 点 数 格式 ， 但 并 不 调用 任何 其 他 译 点 数 函 
数 时 ， 就 有 可 能 猜测 错误 。 工 作 区 可 以 在 将 被 载 入 链接 器 的 模块 里 声明 像 下 面 这 
样 的 函数 ， 从 而 同 链接 器 提供 更 多 的 线索 : 


static void forcefloat(float *p) 
{ float f = *p; forcefloat(&f); } 


不 要 实际 调用 这 个 函数 ， 只 要 保证 它 被 链接 即 可 。 这 样 就 能 给 Borland PC 的 
链接 天 提供 一 个 足够 可 靠 的 线索 ， 即 该 浮 点 库 确实 是 需要 的 。 


另外 还 有 一 条 类 似 的 信息 ， 处 理 器 而 计算 机 却 未 安装 它 
时 ，Microsoft C 运 行 时 系统 会 打印 出 一 条 信息 ， 表 示 “ 浮 点 数 未 载 入 ”。 可 以 使 用 
浮 点 数 仿真 库 重 新 链接 程序 来 解决 这 个 问题 。 


5.4 警惕 Interpositioning 


Interpositioning (“有些 人 称 它 为 “interposing”) 就 是 通过 编写 与 库 函 数 同名 的 
函数 来 取代 该 库 函 数 的 行为 。 这 是 一 种 只 有 那些 喜欢 在 没有 安全 网 的 快车 道 沿边 
疾 行 的 人 才能 享受 的 技巧 。 它 可 以 使 库 函 数 在 特定 的 程序 中 被 同名 的 用 户 函 数 所 
取代 ， 这 通常 是 用 于 调试 或 为 了 提高 效率 。 但 是 ， 就 像 使 用 一 把 没有 保险 栓 的 手 
枪 一 样 ， 专 家 可 以 因此 获得 更 快 的 速度 ， 但 新 手 在 使 用 中 却 极 易 伤 害 自己 。 


使 用 Interpositioning 时 需要 格外 小 心 ， 因 为 很 容易 发 生 自 己 代 码 中 某 个 符号 的 
定义 取代 函数 库 中 相同 符号 的 意外 。 不 仅 你 自己 所 进行 的 所 有 对 该 库 函 数 的 调用 
将 被 自己 版 本 的 函数 调用 所 取代 ， 而 且 所 有 调用 该 库 函 数 的 系统 调用 也 将 用 你 的 
函数 取而代之 。 当 编译 器 注意 到 库 函 数 被 另外 一 个 定义 缆 盖 时 ， 它 通常 不 会 给 出 
错误 信息 。 这 也 是 遵循 C 语 言 的 设计 哲学 ， 即 程序 员 所 做 的 都 是 对 的 。 在 这 里 ， 
编译 器 也 认为 这 是 程序 员 的 意图 。 


多 年 来 ， 我 们 尚 没有 见 到 令 人 信服 的 例子 ， 证 明 某 种 效果 只 能 通过 
Interpositioning 有 效 地 实现 ， 而 无 法 用 其 他 方法 《或 许 矿 烦 一 些 ) 来 完成 。 我 们 曾 
见 到 过 许多 例子 ， 即 一 个 伴随 Interpositioning 的 缺 省 全 局 作用 域 的 符号 导致 难以 寻 
找 的 Bug《〈 见 图 5-3) 。 我 们 见 到 过 十 几 个 Bug 报 告 和 重大 软件 问题 ， 有 些 甚 至 出 
自学 识 渊博 的 软件 开发 人 员 之 手 。 令 人 不 快 的 是 ，Interpositioning 本 身 并 不 是 
Bug， 它 是 编译 器 明确 要 求 文 持 的 。 


Interpositioning 和 缺 省 全 局 作用 域 
1. 没有 Interpositioning， 调 用 系统 mktemp() 函 数 。 
用 户 程序 C 库 函数 


maint(t) { ss 


mktemp (); 


getwd(); ns MELemD() sas.) 


2. 使 用 Interpositioning 后 ， 系 统 版 本 的 mktemp() 函 数 被 自己 版 本 的 同名 函数 所 取代 ， 不 管 是 在 
自己 的 代码 中 还 是 在 系统 调用 中 ! 


mktemp() { ... } meamoi(y { wm 
mY a 

mktemp(); 

getwd(); 


图 5-3 ”Interpositioning 和 缺 省 全 局 作用 域 示 意 


绝 大 多 数 程序 员 都 没 记 住 C 标 准 库 中 所 有 函数 的 名 字 ， 而 且 像 index 或 mktemp 
这 样 常见 的 名 字 ， 其 重复 概率 之 高 令 人 吃惊 。 有 时 候 ， 这 方面 的 Bug 会 带 入 产品 
代码 中 。 


软件 信条 


SunOS 中 跟 Interpositioning 有 关 的 一 个 Bug 


在 SunOS 4.0.3 下 ， 打 印 程序 /usr/ucb/lpr 有 时 会 产生 一 条 错误 信息 ， 表 示 “ 内 存 
不 足 ”， 并 拒绝 执行 打印 任务 。 这 个 错误 偶尔 发 生 ， 非 常 难以 追踪 。 最 后 ， 我 们 终 
于 把 问题 弄 清 ， 原 来 这 是 一 个 无 意 产 生 的 Interpositioning 导 致 的 Bug。 


编写 jpr 的 那个 程序 员 在 实现 lpr 时 创建 了 一 个 缺 省 情况 下 为 全 局 的 函数 
mktemp()， 它 要 求 接受 3 个 参数 。 那 个 程序 员 并 不 知道 在 C 函 数 库 (ANSI 之 前 ) 中 
己 经 存在 一 个 名 叫 mktemp0) 的 函数 ， 它 的 功能 相似 ， 但 只 接受 一 个 参数 。 


不 幸 的 是 ，lpr 也 调用 库 函 数 getwd()， 而 后 者 在 内 部 需要 使 用 库 函 数 版 本 的 
mktemp。 事 实 上 ， 它 所 使 用 的 是 lpr 的 版 本 ! 这 样 ， 当 getwd0O 调 用 mktemp 时 ， 它 
把 一 个 参数 放 到 堆栈 中 。 但 是 ，lpr 版 本 的 mktemp 却 提取 3 个 参数 ， 其 中 两 个 参数 
的 内 容 显 然 是 垃圾 。 根 据 垃 圾 内 容 的 不 同 ， 有 时 lpr 会 因为 “内存 不 足 ? 而 失败 。 


准则 : 不 要 让 程序 中 的 任何 符号 成 为 全 局 的 ， 除 非 有 意 把 它们 作为 程序 的 接 
2 


通过 把 ]pr 的 mktemp 函 数 声明 为 static 困 数 ， 使 它 在 所 在 文件 之 外 不 可 见 《〈 也 
可 以 给 它 另 外 取 一 个 名 字 ) ， 问 题 得 到 了 修正 。mktemp 现 在 已 被 ANSI C 标 准 库 
函数 tmpnam 所 取代 ， 然 而 Interpositioning 造 成 问题 的 机 会 依然 存在 。 


表 5-2 列 出 的 标识 符 不 应 该 出 现在 自己 程序 的 声明 中 。 其 中 有 些 标识 符 是 始终 
保留 的 ， 其 他 一 些 则 只 有 在 包含 一 个 特定 的 头 文 件 后 才 古 保留 的 。 还 有 些 标识 符 
只 在 全 局 范围 内 才 是 保留 的 ， 其 他 一 些 则 无 论 在 全 局 范围 还 是 在 文件 范围 内 都 予 
以 保留 。 同 时 要 注意 所 有 的 关键 字 都 是 保留 的 ， 但 为 了 简单 起 见 并 未 在 表 中 列 
出 。 避 免 麻 烦 最 容易 的 方法 就 是 认为 这 些 标识 符 始 终 属 于 系统 所 有 ， 不 把 它们 用 
作 上 自己 的 标识 符 。 


有 几 项 看 上 去 像 这 样 : is[a-z] anything。 


这 表示 任意 以 is” 开头 ， 后 面 跟 一 个 从 a 一 z 的 小 写字 母 〈 但 不 包括 诸如 数字 之 
类 的 东西 ) ， 然 后 再 接任 意 字 符 。 


另外 有 几 项 看 上 去 像 这 样 : acos, -f, -]。 


它 表示 3 个 标识 符 acos、acosf、acosl 都 是 保留 的 。 所 有 位 于 math 尖 文件 内 的 函 


数 都 有 一 个 接受 一 个 double 参 数 的 基本 版 本 。 那 里 也 可 能 


两 个 额外 的 版 本 : 基 


本 名 后 加 后 绥 ] 表 示 该 函数 接受 一 个 long double 参 数 ， 基 本 名 后 加 后 缀 f 表 示 该 函数 


接受 一 个 float 参 数 。 


表 5-2 ”避免 使 用 的 标识 符 〈 在 ANSI C 被 系统 保留 ) 
不 要 在 标识 符 中 使 用 这 些 名 字 
_anything 
abort abs acos, -f, -1 asctime 
asin,-f,-1 assert atan, -f, -1 atan2, ，-f, -1 
atexit atof atoi atol 
bsearch 站 ceil Tf 1 
CHAR_BIT CHAR_MAX CHAR_MIN clearerr 
cosh, -f, -1 ctime currency_symbol DBL_DIG 
DBL_EPSILON DBL_MAX DBL_MAX_16_EXP 
DBL_MAX_EXP DBL_MIN DBL_ MIN_16_EXP DBL_MIN_EXP 
decimal point difftime div 
div 七 E[6-9] E[A-Z]anything 
errno EXIT_FAILURE EXIT_SUCCESS 
exp, -f, -1 fabs, -f, -1 fclose feof 
ferror fflush fgetc fgetpos 
fgets FILE FILENAME_ MAX floor, -f, -1 
FLT_DIG FLT_MANT_DIG FLT_MAX 
FLT_MAX_16_EXP FLT_MAX_EXP FLT_MIN FLT_MIN_16_EXP 
FLT_MIN_EXP ee fmod, -f, -1 
fopen FOPOEN_ MAX fpos_t fprintf 
fputc frac digits fread 
free freopen frexp, -f, -1 fscanf 
fseek ftell fwrite 
getc getchar getenv gets 
gmtime HUGE_VAL int_curr_symbol 
int _ frac digits INT_MAX INT_MIN is[a-z]Janything 
jmp_buf labs LC_[A-Z]anything 
lconv LDBL_DIG LDBL_EPSILON LDBL_MANT_DIG 
LDBL_MAX LDBL_MAX_EXP LDBL_MIN 
LDBL_MIN_16_EXP LDBL_MIN_EXP ldexp，-f，-1 ldiv 
ldiv 七 i log, -f, -1 
log16, -f, -1 LONG_MAX LONG_MIN longjmp 


malloc MB_CUR_MAX MB_LEN_MAX mblen 
mbstowcs mbtowc mem[a-z]anything mktime 
modf, -f, -1 mon_decimal point mon_grouping mon_thousands_sep 
n_cs_precedes n_sign_posn NDEBUG 
negative sign NULL 

perror positive sign pow,，-f, -1 printf 
ptrdiff 七 putchar puts 

qsort raise rand RAND_MAX 
realloc rename rewind 
scanf SCHAR_MAX SCHAR_MIN SEEK_CUR 
SEEK_END setbuf setjmp 
setlocale setvbuf SHRT_MAX SHRT_MIN 
SIG [A-Z]anything SIG DFL SIG_ ERR 

SIG IGN SIG[A-Z]anything SIGABRT SIGFPE 
SIGILL SIGINT signal SIGSEGV 
SIGTERM sin, -f, -1 sinh, -f, -1 size 七 
sprintf squt, -f, -1 

srand sscanf stderr stdin 
stdout me tan, -f, -1 
tanh, -f, -1 thousands_sep time time 七 

tm tm_isdst tm_mday 
tm_min tm_mon tm_sec tm wday 
tm_yday TMP_MAX tmpfile 
tmpnam to[a-z]anything UCHAR_MAX UINT_MAX 
ULONG_MAX USHRT_MAX va_arg 
va_end va_list va_start vfprintf 
vprintf wchar_t wcs[a-zl]anything 
wcstombs wctomb 


记 住 ，ANSI CC 标准 第 6.1.2 节 (标识 符 〉 规定 ， 对 于 外 部 的 标识 符 ， 编 译 器 可 


以 自行 定义 ， 使 它们 不 区 分 字母 大 小 写 。 同 时 ， 外 部 标识 符 的 前 6 个 字符 必须 与 
其 他 标识 符 不 同 (ANSI C 标 准 第 5.2.4.1 节 , “编译 限制 ?>) 。 在 这 两 种 情况 下 ， 需 
要 避免 使 用 的 标识 符 数 量 进一步 增加 。 表 5-2 包 括 可 能 无 法 重新 定义 的 C 函 数 库 符 


号 。 对 于 所 链接 的 其 他 函数 库 ， 也 有 一 些 需 要 避免 使 用 的 符号 。 


文档 由， 看 看 有 哪些 标 


一 


识 符 需 要 避免 。 


ANSI C 标 准 关于 名 字 空间 污染 的 问题 只 提 到 了 一 前 


你 应 该 查看 ABI 


有 分。 在 第 7.1.2.1 节 中 ， 


ANSI C 纵 容 用 户 肆 无 尽 习 地 重新 定义 系统 的 名 字 (有效 地 助长 了 


Interpositioning ) : 


7.1.2.1 保 留 的 标识 符 : 所 有 外 部 链接 的 标识 符 在 任何 下 列 部 分 中 《〈 接 下 来 是 
一 些 定义 标准 库 函 数 的 内 容 ) .……. 始终 作为 保留 ， 不 能 在 外 部 链接 中 作为 用 户 的 
标识 符 。 


如 果 标 识 符 是 被 保留 的 ， 就 表示 用 户 不 能 重新 定义 它 。 然 而 ， 这 并 不 是 一 个 
约束 条 件 。 当 这 种 情况 发 生 时 ， 它 并 不 要 求 编 译 器 给 出 错误 信息 。 它 只 是 造成 一 
些 不 可 移植 问题 或 出 现 未 定义 的 行为 。 换 句 话 说 ， 如 果 一 个 函数 的 名 字 同 C 函 数 
库 中 某 个 函数 的 名 字 一 样 (有意 或 无 意 ) ， 就 创建 了 一 个 不 遵循 标准 的 程序 ， 但 
编译 器 并 不 一 定 会 警告 这 种 行为 。 我 们 更 愿意 标准 规定 编译 器 对 这 种 情况 能 给 出 

条 警告 信息 ， 并 让 它 上 自己 定义 是 否 允 许 这 种 行为 。 就 像 在 switch 语 句 中 ， 标 准 
也 只 是 规定 了 编译 器 至 少 应 该 允许 的 case 标 签 数量 的 下 限 〈257 个 ) ， 它 的 上 限 则 
是 由 编译 器 自己 定义 的 。 


5.5 ”产生 链接 右 报 告 文件 


ee dn 个 报告 。 它 里 面包 括 了 被 
Interpose 的 符号 的 说 明 。 通 常 ， 带 -m 选 项 的 ld 会 产生 一 个 内 存 映射 或 列表 ， 显 示 
ee 它 同 时 显示 了 同一 个 符号 的 多 个 实 
例 ， 通 过 查看 报告 的 内 容 ， 用 户 可 以 判断 是 否 发 生 了 Interpositioning。 


ld 程序 中 的 -D 选 项 是 随 SunOS 5.3 引 入 的 ， 目 的 是 提供 更 好 的 链接 -编辑 调 
试 。 这 个 选项 《〈 在 链接 器 和 函数 库 手 册 中 有 详细 说 明 ) 允许 用 户 显示 链接 -编辑 过 
程 和 所 包含 的 输入 文件 。 如 果 需 要 监视 从 archive 中 提取 对 象 的 过 程 ， 这 个 选项 万 
其 有 用 。 它 同时 可 用 于 显示 运行 时 绑 定 信息 。 


ld 是 一 个 复杂 的 程序 ， 还 有 很 多 其 他 选项 和 约定 未 在 此 处 说 明 。 对 于 绝 大 多 
0 这 些 说 明 已 经 足够 了 。 如 需 知道 更 多 有 关 它 的 知识 ， 下 面 提 供 了 4 
途径 ， 按 其 复杂 程度 分 列 如 下 : 


。 使 用 ldd 命 令 列 出 可 执行 文件 的 动态 依赖 集 。 这 条 命令 会 告诉 你 动态 链接 的 程 
序 所 需要 的 函数 库 ; 

。 ld 程序 的 -Dhelp 选 项 能 提供 一 些 信息 ， 有 助 于 查找 链接 过 程 中 出 现 的 问题 ; 

。 查看 ld 程序 的 在 线 文档 ; 

。 阅读 SunOs Linker and Libraries Manual (位 于 801-2869-10 部 分 )。 


综合 利用 上 面 几 种 途径 ， 可 以 知道 所 需要 的 任何 微妙 的 特殊 链接 效果 。 


小 局 发 


“botch” 何 时 出 现 


在 SunOS 4.x 中 ， 如 果 在 一 条 错误 信息 里 出 现 了 “botch”《〈 修 补 ) 这 个 词 ， 表 示 
载 入 器 发 现 了 一 个 内 部 的 不 一 致 性 问题 。 这 通常 归 因 于 不 正确 的 输入 文件 。 


在 SunOS 5.x 中 ， 载 入 器 在 检查 输入 、 维 护 正 确 性 和 一 致 性 方面 有 了 很 大 的 提 
高 。 它 不 再 需要 抱怨 内 部 错误 ， 因 此 “botch” 信 息 不 再 存在 。 


[Bj o 


5.6 ”轻松 一 下 一 一 看 看 谁 在 说 话 : 挑战 Turing 测 验 


在 电子 时 代 的 黎明 ， 计 算 机 的 潜力 逐渐 显 山 露水 ， 人 们 开始 争论 哪个 系统 有 
朝 一 日 将 具备 人 工 智 能 。 这 很 快 归结 为 一 个 问题 “我 们 怎样 知道 机 器 在 想 些 什 
么 ? ”。 在 1950 年 Mind 期 刊 的 一 篇 论文 中 ， 喘 国 数学 家 Alan Turing 设 计 了 一 个 实 
际 测 验 ， 把 人 们 从 理念 上 的 喉 唆 不 休 中 解脱 出 来 。Turing 提 议 由 一 位 讯问 者 与 另 
一 个 人 和 一 台 计 算 机 谈话 〈 通 过 电 传 形式 ， 以 避免 视觉 和 声 觉 线索 ) 。 如 果 在 5 
分 钟 内 ， 讯 问 者 无 法 分 辨 出 哪个 是 人 ， 哪 个 是 计算 机 ， 那 么 这 台 计 算 机 便 被 认为 
是 具有 人 工 智 能 。 这 个 游戏 被 称 为 Turing 测 验 。 


从 Turing 提 议 这 个 测验 后 的 数 十 年 里 ，Turing 测 验 已 经 进行 过 多 次 ， 有 时 出 现 
了 一 些 令 人 目瞪口呆 的 结果 。 我 们 描述 了 其 中 一 些 测 试 ， 并 再 现 了 一 些 对 话 情 
景 ， 你 可 以 自行 判断 。 


5.6.1 Eliza 


Eliza 是 最 早 用 于 人 处理 自然 语言 的 程序 之 一 ， 它 的 名 字 取 自 北 伯 纳 剧 
本 Pygmalion 中 饶舌 的 女 主人 公 。Eliza 软 件 是 由 MIT 的 一 名 教授 Joseph 
Weizenbaum 于 1965 年 编写 ， 它 模仿 患者 对 精神 病 学 家 Rogerian 的 询问 进行 回答 。 
该 程序 对 输入 的 文字 进行 表面 的 分 析 ， 并 从 一 堆 内 置 于 程序 中 的 回答 中 挑 一 个 合 
适 的 予以 返回 。 从 表面 上 看 ， 计 算 机 好 像 能 理解 所 有 的 谈话 ， 这 个 幻觉 辐 弄 了 相 
当 一 部 分 对 计算 机 不 知 底细 的 人 们 。 


Weizenbaum 首 先 邀 请 他 的 秘书 来 测试 这 个 系统 ， 从 而 揭 开 了 这 个 现象 的 冰山 
一 角 。 在 与 Eliza 经 过 几 分 钟 的 打字 交谈 后 ， 这 个 秘书 〈 她 在 先前 的 几 个 月 里 一 直 
看 着 Weizenbaum 编 写 这 个 软件 ， 因 此 应 该 比 绝 大 多 数 人 更 清楚 这 只 不 过 是 一 个 计 
算 机 程序 ) 要 求 Weizenbaum 离 开房 间 ， 这 样 她 便 可 以 与 对 方 私下 交谈 。 


Turing 测 验 的 第 一 次 测试 是 失败 的 ， 虽 然 那个 秘书 把 这 个 初级 软件 〈 它 在 人 
工 智能 方面 并 没有 投入 多 大 努力 ) 当成 了 人 ， 但 与 其 说 它 显 示 了 软件 的 智能 ， 还 
不 如 说 它 显示 了 人 们 的 易 受骗 性 。Eliza 成 了 一 个 流行 的 程序 ， 并 被 一 个 波士顿 计 
算 机 顾问 机 构 Bolt Berenek and Newman (BBN) 所 采用 。 当 BBN 的 一 位 副 主 席 在 
测试 中 也 发 现 自己 受骗 上 当 后 ， 人 们 对 它 进 行 了 多 次 更 为 严格 的 测试 。 


5.6.2 ”Eliza 面 对 副 总 裁 


计算 机 科学 家 Daniel Bobrow 在 SIGART Newsletter 1968 年 12 月 的 栏目 中 作 了 以 
下 描述 。 


个 星期 六 的 早上 ， 大 约 9 点 钟 ，BBN 一 名 负责 销售 Telcomp 通 信服 务 的 副 总 
裁 来 到 我 们 的 计算 机 室 ， 和 希望 能 用 计算 机 做 些 演 示 。 他 在 电 传 上 发 现 了 一 张 纸 
和 条， 上面 写 着 “把 所 有 的 信息 输入 电 传 ， 最 后 加 个 句号 ”。 这 张 纸 条 是 一 位 朵 和 逛 到 
这 里 的 程序 员 留 下 的 ， 他 刚刚 成 功 地 运行 了 Lisp 版 的 Doctor 程 序 〈 基 于 
Weizenbaum 开 发 的 Eliza〉。 但 是 ， 副 总 裁 先生 却 以 为 这 张 纸 条 上 暗示 这 个 电 传 是 与 
我 家 里 的 计算 机 连接 在 一 起 的 ， 因 为 我 经 常 整 夜 开 着 计算 机 。 因 此 ， 他 开始 用 电 
传 与 “我 ”交谈 ， 但 事实 上 是 与 Doctor 程 序 交 谈 ， 于 是 就 有 了 下 面 的 谈话 。 


副 总 裁 : 你 认为 今天 早上 我 可 以 使 用 这 人 台 计 算 机 吗 ? 
电 传 : 你 为 什么 要 问 这 个 问题 ? 

副 总 裁 : 也 许 我 可 以 多 销售 一 些 Telcomp。 

电 传 : 你 为 什么 不 确信 ? 


副 总 裁 : 我 预期 的 用 户 从 没 见 过 这 个 系统 的 演示 。 


电 传 : 这 对 你 很 重要 吗 ? 


副 总 裁 : 当然 。 

电 传 : 你 对 这 件 事 很 积极 啊 。 

副 总 裁 : 这 很 殉 请 。 

电 传 : 你 说 它 殉 请 是 什么 意思 ? 

副 总 裁 : 到 底 有 什么 理由 不 让 我 现在 使 用 这 人 台 计 算 机 ? 
电 传 : 告诉 我 更 多 有 关 你 预期 的 用 户 的 事 。 

副 总 裁 : 打 电 话 给 我 


注意 在 这 句 话 之 后 ， 总 裁 先生 没有 遵循 指令 ， 他 扎 了 在 后 面 加 个 句号 。 因 此 
计算 机 没有 回答 他 的 话 。 这 激 和 你 了 副 总 裁 先生 。 他 以 为 我 一 直 在 数 衍 他 。 于 是 给 
我 打 了 个 电话 ， 把 我 从 睡梦 中 叫 醒 。 


副 总 裁 : 你 跟 我 搞 什么 购 ? 
Bobrow: 搞鬼 ? 我 不 明白 您 说 的 是 什么 意思 。 


副 总 裁 先 生生 气 地 把 对 话 记 录 读 给 我 听 ， 电 话 那 头 传 来 我 乐 不 可 文 的 笑 声 。 
我 费 了 好 长 时 间 才 让 他 明白 跟 他 谈话 的 是 计算 机 。 


注意 ，Fliza/Doctor 软 件 通常 用 开放 式 问 句 与 用 户 交 谈 ， 这 样 可 以 促使 用 户 输 
入 更 多 的 句子 。 它 并 不 想 回 答 问 题 ， 因 为 它 没 这 个 能 力 。 虽 然 如 此 ， 这 个 程序 还 
是 糊弄 了 精通 计算 机 的 副 总 裁 先生 。 它 之 所 以 能 糊弄 人 ， 并 不 是 因为 它 的 智能 ， 
它 是 靠 人 本 里 的 弱点 而 通过 Turing 测 验 的 。 尺 管 在 那个 时 代 它 显得 新 奇 ， 但 从 今 
天 的 标准 看 ， 这 个 软件 还 是 相当 初级 。 它 能 够 欺骗 人 们 是 因为 人 们 太 容 易 被 欺 
骗 ， 所 以 这 个 测验 不 够 充分 。 因 此 ， 第 二 次 Turing 测 验 也 以 失败 告终 。 


5.6.3 ”Doctor 面 对 Doctor 


出 于 异想天开 、 对 黑客 价值 的 重视 以 及 寻找 乐趣 ， 自 由 软件 基金 在 他 们 流行 
的 GNU 编 辑 器 产品 中 创建 了 精神 病 医 生 对 话 程序 。GNU-EMACS 编 辑 器 是 一 个 锡 
费 软 件 ， 在 绝 大 多 数 的 UNIX 系 统 中 都 可 以 见 到 。 当 你 启动 GNU-EMACS 后 ， 输 入 
命令 escape-x doctor 即 可 启动 该 程序 。 我 想 如 果 把 两 个 Doctor 程 序 的 实例 背靠背 地 
连接 在 一 起 ， 让 它们 互相 对 话 ， 肯 定 很 好 玩 。 下 面 是 试验 结果 。 


1: 我 是 精神 病 医 生 ， 请 描述 你 的 问题 。 

2: 谁 叫 你 来 看 我 的 ? 

1: 你 能 说 得 详细 一 点 吗 ? 

2: 如 果 你 继续 ， 我 会 有 兴趣 的 。 

1: 你 为 什么 相信 如 果 我 继续 你 会 有 兴趣 的 ? 

2: 你 为 什么 这 样 说 ? 

(doctor 1 开始 出 现 语法 错误 ) 

1: 当 我 说 这 些 的 时 候 ， 你 是 什么 时 候 知 道 的 。 
(doctor 2 也 开始 出 现 语法 错误 ) 

2: 当 我 第 一 次 知道 你 说 那些 的 时 候 发 生 了 什么 ? 


1: 如 果 你 第 一 次 知道 我 说 那些 的 时 候 会 发 生 什 么 ? 


2: 你 所 说 的 那些 是 不 是 真正 的 原因 ? 


1: 我 说 的 那些 是 不 是 真正 的 原因 是 真正 的 原因 吗 ? 


呢 ? 


: 你 所 说 的 那些 是 不 是 真正 的 原因 是 真正 的 原因 是 不 是 解释 了 其 他 的 东西 


1: 我 所 说 的 那些 是 不 是 真正 的 原因 是 真正 的 原因 是 不 是 解释 了 其 他 的 东西 


是 不 是 解释 了 其 他 的 东西 ? 


: 你 确信 你 所 说 的 真正 的 原因 是 真正 的 原因 解释 了 其 他 的 东西 解释 了 其 他 


的 东西 吗 ? 


吗 ? 


1: 你 确保 真正 的 原因 是 真正 的 原因 解释 了 其 他 的 东西 解释 了 其 他 的 东西 


2: 开始 时 你 说 是 谁 叫 我 来 看 你 的 ? 

1: 开始 时 你 说 是 谁 叫 你 来 看 我 的 让 你 想起 了 什么 ? 

2: 是 因为 你 让 我 想起 什么 让 我 想起 了 什么 吗 ? 

1: 是 因为 我 让 你 想起 什么 让 我 想起 了 什么 吗 ? 

2: 你 让 我 想起 什么 我 让 你 想起 什么 ， 你 是 不 是 生气 了 ? 


(doctor1 想 换个 话题 ， 并 修正 语法 错误 ， 结 果 却 陷入 死 循环 ) 


1: 是 什么 让 你 生气 的 ? 
2: 你 确信 你 生气 了 吗 ? 


1: 是 什么 让 你 相信 你 生气 了 的 ? 


2: 你 经 常生 气 吗 ? 
1: 你 经 常生 气 吗 ? 


事实 上 ， 你 可 以 看 到 ， 对 话 过 程 并 不 是 很 有 趣 。 这 个 对 话 显示 了 Doctor 程 序 
的 主要 谈话 设计 是 “回声 ”。 它 肤浅 的 文本 分 析 根 本 经 不 起 复杂 句子 的 推 披 。 妆 
Doctor 试 图 在 前 面 的 句子 中 重复 后 面 几 个 词 把 它 作 为 问 句 时 ， 结 果 产 生 了 它 自 己 
也 无 法 分 析 的 复杂 句子 。 尽 管 Doctor 程 序 曾 使 很 多 人 误 以 为 它 是 一 个 人 ,但 看 了 
上 面 的 对 话 ， 相 信 没 人 会 被 糊弄 。 


5.6.4 波士顿 的 奖品 


时 光 快 速 流 逝 ， 转 眼 已 是 1991 年 了 。 计 算 机 系统 变 得 更 快 、 更 强大 。 过 去 1/4 
个 世纪 以 来 ， 人 们 一 直 在 人 工 智能 领域 的 各 方面 投入 研究 。 让 我 们 看 一 下 最 新 和 
最 壮观 的 Turing 测 验 。 


1991 年 11 月 ， 波 士 顿 计 算 机 博物 馆 协 同 国家 科学 基金 会 和 Alfred P.Sloan 基 金 
会 ， 主 办 了 一 个 Turing 测 验 的 公共 演示 会 。 博 物 馆 通过 在 波士顿 的 报纸 上 登 广 告 
来 选择 人 类 讯问 者 。 博 物 馆 希望 讯问 者 能 代表 普通 人 《而 不 是 具有 特殊 哲学 和 语 
言 学 知识 的 科学 家 ) 。 一 个 由 10 名 讯问 者 组 成 的 小 组 通过 终端 与 十 几 个 程序 和 健 
谈 者 进行 3 小 时 的 谈话 。 以 下 是 一 段 典型 的 对 话 。 


终端 : 一 个 奇想 就 是 一 阵 突 然 的 引 人 注 目的 而 且 经 名 是 很 特别 的 行为 ， 束 像 
是 一 束 日 光照 射 在 死 气 沉沉 的 灰色 世界 里 。 


讯问 者 : 好 像 是 一 种 直觉 ? 


终端 : 每 个 人 都 计划 做 些 什 么 ， 而 且 每 个 人 都 确实 做 了 些 事 ， 但 没有 一 个 人 
所 做 的 是 他 所 计划 的 。 


讯问 者 : 咽 ， 不 管 怎 样 我 觉得 异想天开 的 谈话 犹如 国际 象棋 中 马 的 一 连 串 移 


动 一 一 是 一 个 “之 ”字形 的 移动 而 不 是 按照 某 条 特定 的 路 线 移动 。 
终端 : 一 个 异想天开 的 人 受 古 怪 的 行为 和 不 可 预测 的 想法 的 支配 ...... 不 可 预 
测 ， 这 太 棒 了 ! 


室 不 奇怪 ， 上 面 的 终端 实际 上 是 一 个 计算 机 程序 。 它 的 做 法 和 Eliza 一 样 ， 通 
过 分 析 语 法 和 讯问 者 输入 的 文本 中 的 关键 词 ， 并 从 它 巨 大 存储 量 的 现成 短语 数据 
库 中 根据 匹配 的 话题 挑选 出 一 些 组 成 回答 。 它 并 不 在 讯问 者 的 话 后 面 复制 最 后 几 
个 词 来 组 成 回应 ， 从 而 避免 了 前 面 出 现 的 “doctor 的 困境 ”。 相 反 ， 它 通过 持续 引入 
新 《但 相关 ) 的 话题 使 谈话 得 以 继续 。 


所 以 ， 上 面 所 示 的 程序 让 10 个 讯问 者 中 的 5 个 上 当 也 品 不 奇怪 ， 他 们 在 经 过 
上 面谈 话 或 更 多 的 交流 之 后 认定 对 方 是 人 。Turing 测 验 的 第 3 个 试验 也 不 走运 ， 离 
及 格 只 差 那么 一 点 。 


5.6.5 ”结论 


上 面 的 程序 无 法 直接 回答 一 个 简单 的 问题 〈“[ 你 认为 ] 好 像 是 一 种 直 


党? ”) ， 这 是 计算 机 科学 家 所 面临 的 最 大 难题 ， 也 反映 了 Turing 测 验 的 主要 弱 
点 : 简单 交流 中 半 适 当 的 短语 并 不 能 提示 说 话 者 的 想法 一 一 我 们 不 得 不 看 一 下 交 
流 的 内 容 。 


Turing 测 验 被 反复 证 明 是 不 够 充分 的 。 它 依靠 表面 现象 ， 而 人 们 太 容 易 被 表 
面 现象 所 欺骗 。 它 与 “模仿 一 个 活动 的 外 在 表象 是 否 伴 随 该 活动 的 内 在 过 程 的 证 
据 ? 这 个 重要 的 哲学 问题 相距 其 远 ， 人 类 讯问 者 通常 无 法 对 一 些 必 要 的 细 贡 作出 精 
确 的 判断 。 由 于 人 们 日 常 谈 话 经 历 中 的 交谈 对 象 都 是 人 ， 所 以 人 们 很 目 然 地 以 为 
所 有 的 谈话 《无 论 多 么 采 板 ) 都 是 在 人 与 人 之 间 进 行 的 。 


尽管 几 次 试验 均 千 失败， 人工 智能 社区 很 不 愿意 放弃 这 个 测验 。 对 于 这 个 测 
试 ， 有 许多 理论 上 的 辩解 。 它 在 理论 上 的 简单 性 具有 强烈 的 魅力 。 但 如 果 在 实际 


应 用 中 显得 不 可 行 ， 那 么 它 必然 需要 修改 或 者 放弃 。 


最 初 的 Turing 测 验 被 解释 为 讯问 者 是 否 能 够 通过 电 传 区 分 女人 和 伪装 成 女人 
的 男人 。Turing 并 没有 直接 在 他 的 论文 中 说 明 测 验 这 个 问题 是 不 够 充分 的 。 


有 些 人 或 许 觉得 所 需要 的 就 是 重新 强调 谈话 的 这 个 方面 ， 就 是 说 ， 要 求 讯问 
者 辨认 通过 电话 谈话 的 对 象 到 底 是 不 是 人 。 我 不 认为 这 会 有 什么 成 果 。 为 了 人 简单 
起 见 ，1991 年 的 计算 机 博物 馆 测 试 把 每 个 电 传 的 谈话 内 容 限 定 为 一 个 领域 。 不 同 
的 程序 有 不 同 的 知识 库 ， 话 题 履 新 购物 、 天 气 、 奇 思 怪 想 等 。 为 了 让 程序 根据 人 
的 情况 给 出 一 组 合适 的 评论 和 聪明 的 反应 ， 这 是 有 必要 的 。Turing 在 论文 里 说 5 分 
钟 时 间 对 于 这 样 的 测验 应 该 是 足够 了 ， 但 现在 看 来 不 是 很 充分 


修正 Turing 测 验 的 一 种 方法 是 修补 有 缺 陷 的 环 让 :人 类 的 易 受 驴 性 。 正 如 要 
求 医生 在 执行 检查 前 需要 经 过 几 年 的 学 习 一 样 ， 我 们 也 应 该 附加 条 件 ， 就 是 
Turing 测 验 的 讯问 者 不 应 是 一 般 市 民 的 代表 。 讯 问 者 应 该 对 计算 相当 精通 ， 甚 至 
是 那些 熟悉 计算 机 系统 的 能 力 和 弱点 的 研究 生 。 这 样 ， 他 们 就 不 会 被 那些 代 蔡 真 
实 回 答 的 从 大 型 数据 库 中 抽取 出 来 的 机 智 话语 所 蒙蔽 。 


另 一 个 有 趣 的 想法 是 探究 终端 所 显示 的 幽默 感 。 让 它 分 辨 某 个 特定 的 故事 是 
否 是 一 个 笑话 ， 并 解释 它 为 什么 好 笑 。 我 觉得 这 种 测试 太 严格 了 一 一 很 多 真实 的 
人 也 未 必 通 得 过 


尽管 Turing 是 一 位 杰出 的 理论 家 ， 但 在 面临 实际 问题 时 ， 他 常常 显得 一 无 是 
处 。 他 的 不 切实 际 性 以 一 种 不 寻常 的 方式 表现 出 来 : 在 他 的 办 公 室 里 ， 他 把 啤酒 
饶 挫 在 散热 器 上 ， 防 止 他 的 同事 饮用 。 他 们 很 自然 地 把 这 个 当 作 是 一 种 挑战 ， 便 
所 开锁 ， 盗 意 饮 用 。 他 常常 跑 十 几 英 里 甚至 更 远 去 赴 一 个 约会 ， 而 不 使 用 公共 交 
通 工具 ， 尽 管 每 次 总 是 筋疲力尽 ， 却 从 不 迟到 。 当 1939 年 欧洲 爆发 战争 时 ， 
Turing 把 他 的 积蓄 换 作 两 个 大 银 块 ， 把 它们 埋 在 乡村 以 保证 安全 。 但 战争 结束 时 
他 却 忘 把 它们 埋 在 哪里 了 。 最 终 ，Turing 以 一 种 很 有 个 性 的 不 实际 的 方式 自杀 : 


他 吃 了 一 个 注射 了 氰 化 物 的 苹果 。 这 个 以 他 的 名 字 命 名 的 测试 理论 性 强 于 实践 
性 。 理 论 和 实践 的 区 别 实 际 上 比 理论 上 想象 的 还 要 大 。 


5.6.6 后记 


Turing 同 时 记载 ， 他 相信 “到 20 世 纪 末 ， 词 汇 的 使 用 和 全 民 教 育 水 平 的 提高 将 
各 来 很 大 的 变化 ， 人 们 将 可 以 说 机 器 具有 思维 能 力 ， 而 不 会 出 现 自 相 矛盾 ”。 这 实 
际 上 比 Turing 预 想 得 要 早 得 多 ， 程 序 员 习惯 性 地 根据 其 思维 过 程 来 解释 计算 机 的 
怪异 行为 :“ 你 没有 按 下 回 车 键 ， 所 以 机 器 以 为 还 有 更 多 的 输入 ， 所 以 它 就 等 
等。” 然 而 ， 这 是 由 于 “思维 ”这 个 词 没有 原先 的 意思 那么 高 级 ， 而 不 是 如 Turing 所 
预言 的 那样 机 器 有 了 意识 。 


Alan Turing 被 公认 为 计算 领域 最 伟大 的 理论 先行 者 之 一 。 为 了 纪念 他 ， 美 国 
计算 机 协会 把 它 的 最 高 年 度 奖项 命名 为 Turing Award (图 灵 奖 ) 。1983 年 的 图 灵 
奖 授予 了 Dennis Ritchie 和 Ken Thompson， 以 表彰 他 们 在 UNIX 和 C 语 言 上 的 杰出 贡 
献 。 


5.6.7 更 多 阅读 材料 


如 果 你 对 人 工 智 能 的 发 展 和 局 限 性 很 有 兴趣 ， 推 荐 阅读 What Computers Still 
Can’t Do: A Critique of Artificial Reason 一 书 。 


[1] 系统 调用 mmap0 把 文件 映射 到 进程 的 地 址 空间 中 。 这 样 ， 文 件 的 内 容 可 以 通 
过 读 取 连续 的 内 存 地 址 来 获得 。 当 文件 包含 可 执行 文件 的 指令 时 ， 这 种 方法 尤为 
适宜 。 在 SVr4 系 统 中 ， 文 件 系统 被 当 作 虚 拟 内 存 系统 的 一 部 分 ， 而 mmap 就 是 一 
种 把 文件 映射 到 内 存 的 机 制 。 


[2] The System V Application Binary Interface, AT&T, 1990. 


第 6 蔓 ” 运动 的 许 章 : 运行 时 数据 结构 


#42: 大 胆 地 走 在 一 条 近来 只 有 少数 人 走 过 的 路 上 时 ， 企 业 计 算 机 被 一 种 强 
大 的 外 星 生命 形式 所 破坏 ， 它 的 形态 惊奇 得 和 人 一 样 。 


#43: Trekkers 遇 见 充 满 敌 意 的 计算 机 智能 ， 哲 学 和 逻辑 的 小 用 使 它 自我 毁 
pi 


#44: Trekkers 遇 见 一 种 文明 ， 它 与 先前 的 地 球 文 明令 人 吃惊 地 相 象 。 


#45: 疾病 使 一 个 或 多 个 船员 迅速 变 老 。 同 时 也 有 相反 的 例子 ， 如 关键 的 船 
员 回 到 了 童年 ， 无 论 生 理 上 上、 智力 上 还 是 两 者 都 是 。 


#46: 一 个 外 星 生命 谋 入 了 一 个 Trekker 的 身体 ， 并 且 控 制 了 它 。 继 续 等 待 看 
到 相反 的 事情 发 生 。 


#47: 船长 在 矫正 事物 时 违背 了 基本 指示 ， 既 可 能 使 企业 处 于 危险 之 中 ， 也 
可 能 与 一 个 迷人 的 外 星人 有 染 ， 或 者 两 者 都 是 。 


#48: 船长 最 终 把 和 平 带 给 了 一 个 极 像 地 球 的 世界 上 两 个 原始 的 处 于 战争 状 
态 的 社会 “我们 进入 和 平 ， 枪 杀 之 。”) 


一 一 Snope 教 授 的 Canonical Star Trek Plots, and Delicious Yam Recipes 


编程 语言 理论 的 经 典 对 立 之 一 就 是 代码 和 数据 的 区 别 。 有 些 语言 《如 LISP ) 
把 两 者 视 为 一 体 。 其 他 语言 《如 C 语 言 ) 通常 维持 两 者 的 区 别 。 第 2 章 所 描述 的 
Internet 蠕 虫 非常 难以 被 人 们 所 理解 ， 因 为 它 的 攻击 方法 的 原理 就 是 把 数据 转换 为 
代码 。 代 码 和 数据 的 区 别 也 可 以 认为 是 编译 时 和 运行 时 的 分 界线 。 编 译 器 的 绝 大 
部 分 工作 与 翻译 代码 有 关 ; 必要 的 数据 存储 管理 的 绝 大 部 分 在 运行 时 进行 。 本 章 


描述 运行 时 系统 中 隐藏 的 数据 结构 。 


我 们 之 所 以 要 学 习 运 行 时 系统 ， 主 要 有 3 个 理由 : 


。 它 有 助 于 优化 代码 ， 获 得 最 佳 的 效率 ; 
。 它 有 助 于 理解 更 高 级 的 内 容 ; 
。 当 陷 入 麻烦 时 ， 它 可 以 使 分 析 问 题 更 加 容易 。 


6.1 a.out 及 其 传说 


你 是 否 曾 疑 惑 aout 这 个 名 字 是 怎样 确定 的 ? 把 所 有 的 输出 文件 都 缺 省 地 使 用 
同一 个 名 字 a.out 可 能 会 带 来 不 便 ， 可 能 会 二 了 它 来 和 目 哪 一 个 源 文 件 。 对 任何 文件 
进行 下 一 次 编译 时 都 有 可 能 绑 辣 它 。 大 多 数 人 都 有 一 个 模糊 的 印象 ， 沉 得 这 个 名 
字 秉 承 了 UNIX 传 统 的 简洁 性 ， 而 且 “a" 是 字母 表 的 每 一 个 字母 ， 所 以 首先 会 想到 
用 它 来 命令 新 文件 。 事 实 上 ， 之 所 以 取 这 个 名 字 跟 这 些 毫 无 关系 。 


它 是 “assembler output” (汇编 程序 输出 ) 的 缩写 形式 ! 老式 的 BSD 文 档 里 甚 
至 有 下 面 的 提示 : 


NAME 
a.out - 汇编 程序 和 链接 编辑 输出 格式 


这 里 有 一 个 问题 : 它 不 是 汇编 程序 输出 ， 而 是 链接 器 输出 ! 


“汇编 程序 输出 ”这 个 名 字 的 产生 纯 属 历史 原因 。 在 PDP-7《〈 甚 至 比 B 语 言 还 
早 ) 上 并 不 存在 链接 器 ， 程 序 是 这 样 创建 的 : 先 把 所 有 源 文件 连接 在 一 起 ， 然 后 
进行 汇编 ， 汇 编 产 生 的 汇编 程序 输出 保存 在 a.out 中 。 即 使 人 们 最 终 为 PDP-11 编 写 
了 链接 器 之 后 ， 最 后 一 个 环节 的 输出 文件 依然 沿用 了 这 个 命名 习惯 。 这 个 名 字 曾 
被 解释 为 “新 程序 准备 就 绪 ， 打 算 执 行 ”。 所 以 缺 省 使 用 a.out 这 个 名 字 是 UNIX“ 没 
什么 理由 ， 但 我 们 就 是 这 样 做 的 ”思维 的 一 例 ! 


UNIX 中 的 可 执行 文件 也 是 以 一 种 特殊 的 方式 加 上 标签 ， 这 样 系统 就 能 确认 
它们 的 特殊 属性 。 为 重要 的 数据 定义 标签 ， 用 独特 的 数字 唯一 地 标识 该 数据 是 一 
种 普 裔 采用 的 编程 搁 巧 。 标 签 所 定义 的 数字 通常 被 称 为 “神奇 ”数字 ， 它 是 一 种 能 
够 确认 一 组 随机 的 三 进 制 位 集合 的 神秘 力量 。 例 如 ， 超 级 块 (superblock,，，UNIX 
文件 系统 中 的 基础 数据 结构 ) 就 是 用 下 面 这 个 神奇 数字 唯一 标识 的 : 


#define FS MAGIC 6x6811954 


这 个 看 上 去 很 奇怪 的 数字 其 实 并 不 是 任意 选择 的 。 它 是 Kirk McKusick 的 生 
日 。Kirk 是 Berkeley fast 文 件 系统 的 实现 者 ， 他 于 20 世 纪 70 年 代 晚期 编写 了 这 些 代 
码 。 但 神奇 数字 非常 有 用 ， 所 以 时 至 今日 ， 上 面 这 个 神奇 数字 仍然 在 source base 
中 使 用 《〈 位 于 文件 sys/fs/ufs_fs.h) 。 它 不 仅 增 强 了 文件 系统 的 可 靠 性 ， 而 且 每 个 
文件 系统 的 黑客 都 知道 在 每 年 的 1 月 19 日 〈 也 就 是 Kirk 的 生日 ) 同 他 发 一 张 生 日 融 
es 


在 a.out 文 件 中 也 存在 类 似 的 神奇 数字 。 在 AT&T 的 UNIX Systme V 发 布 之 
前 ，a.out 文 件 被 标识 为 神奇 数字 0407， 偏 移 为 零 。 为 什么 选择 0407 作 为 确认 
UNIX 目 标 文件 的 神奇 数字 呢 ? 它 是 PDP-11 一 条 无 条 件 转移 指令 (相对 于 程序 计 
数 器 ) 的 二 进 制 编码 ! 如 果 在 兼容 模式 下 运行 PDP-11 或 VAX， 可 以 先 执行 文件 的 
第 一 个 字 ， 然 后 这 个 神奇 数字 《位 于 那里 ) 会 带 你 跳 过 a.out 头 文件 ， 进 入 程序 第 
一 个 真正 的 可 执行 指令 。 当 a.out 需 要 引入 神奇 数字 时 ，PDP-11 正 是 当时 最 正统 的 
UNIX 机 器 。 在 SVr4 中 ， 可 执行 文件 用 文件 的 第 一 个 字 节 来 标注 ， 文 件 以 十 六 进 
制 数 7F 打 头 ， 紧 跟 在 后 面 的 第 二 至 第 四 个 字 节 为 ELF"”。 


6.2 段 


目标 文件 和 可 执行 文件 可 以 有 几 种 不 同 的 格式 。 在 绝 大 多 数 SVr4 实 现 中 都 采 
用 了 一 种 称 作 ELF (原意 为 Extensible Linker Format [可 扩展 链接 器 格式 ] ， 现 在 
表示 Executable and Linking Format [可 执行 文件 和 链接 格式 ] ) 的 格式 。 在 其 他 
系统 中 ， 可 执行 文件 的 格式 是 COFF (Common Ojbect-File Format， 善 通 目标 文件 
格式 ) 。 在 BSD UNIX 中 ，a.out 文 件 具 有 a.out 格 式 。 可 以 通过 输入 man a.out 在 主 
文档 中 查看 更 多 有 关 UNIX 系 统 所 使 用 的 格式 的 信息 。 


所 有 这 些 不 同 格式 具有 一 个 共同 的 概念 ， 那 就 是 段 (segment) 。 后 面 还 将 讲 
述 很 多 和 段 有 关 的 内 容 ， 但 就 目标 文件 而 言 ， 它 们 是 二 进 制 文件 中 简单 的 区 域 ， 
里 面 保存 了 和 某 种 特定 类 型 《如 符号 表 和 条目) 相关 的 所 有 信息 。 术 语 section 也 被 
广泛 使 用 ，section 是 ELF 文 件 中 的 最 小 组 织 单 位 。 一 个 段 一 般 包 含 几 个 section。 


不 要 把 UNIX 中 段 的 概念 跟 Itel x86 架 构 中 段 的 概念 混 消 。 
在 UNIX 中 ， 段 表示 一 个 二 进 制 文件 相关 的 内 容 块 。 


在 Intel x86 的 内 存 模型 中 ， 段 表示 一 种 设计 的 结果 。 在 这 种 设计 中 《基于 兼 
容 性 原因 ) ， 地 址 空间 并 非 一 个 整体 ， 而 是 分 成 一 些 64KB 大 小 的 区 域 ， 称 之 为 


段 。 

关于 Intel x86 架 构 里 面 段 的 话题 本 身 也 值得 用 整整 一 章 来 描述 器。 在 本 书 的 
剩余 部 分 ， 如 果 不 做 特别 说 明 ， 段 这 个 术语 是 指 UNIX 上 的 段 。 

当 在 一 个 可 执行 文件 中 运行 size 命 令 时 ， 它 会 告诉 你 这 个 文件 中 的 3 个 段 ( 文 
本 段 、 数 据 段 和 bss 段 ) 的 大 小 : 


% echo; echo "text data bss total" ; size a.out 


text data bss total 
1548 + 4236 + 40664 = 9788 


size 命 令 并 不 打印 标题 ， 所 以 要 用 echo 命 令 产生 它们 。 


检查 可 执行 文件 的 内 容 的 另 一 种 方法 是 使 用 nm 或 dump 实 用 工具 。 编 译 下 面 
的 源 文 件 ， 在 结果 的 a.out 文 件 上 运行 nm 程序 。 


char pear[46]; 
static double peach; 

int mango 
static long melon 


13; 
20601; 


main() { 
int i = 3, j, *ip; 
ip = malloc(sizeof(i)); 
pear[5] = i; 
peach = 2.6 * mango; 


nm 程序 运行 结果 的 摘要 如 下 我 对 输出 作 了 一 些微 小 的 修改 ， 使 它们 更 容易 
阅读 ) : 


% nm -sx a.out 
Symbols from a.out: 


[Index] Value Size Type Bind Segment Name 
[29] 0X66626790 6Xx66666668 OBJT LOCL bss peach 
[42 ] OX6662679c<c 0OX0660660628 OBJT GLOB bss pear 
[43] @x8886286f4 0X0660666604 OBJT GLOB 


Ls 

| 3 

| .data mango 
LOCL | . 

L's 

| 


| 
0xe6600064 | 0BJT 
| 


[38] 6@x8866286f8 data melon 
[36] 6X666016628 6Xx66666658 FUNC GLOB text main 
[58] 0X666266e4 6Xx66666638 FUNC GLOB UNDEF malloc 


图 6-1 显 示 了 编译 器 和 链接 器 分 别 在 这 些 段 中 写 入 了 什么 东西 。 


源 文 件 a.out 文 件 


char pear[40]; 


static double peach: 


int mango = 13; 
static long melon = 2001; 


ip = malloc(sizeof(i)); 


可 执行 文件 的 指令 


peach = 20 * mango:; 


1 
1 
1 
人 
1 
| pear[5] =i; 
| 
1 
Hi 
1 
1 
1 
1 


局 部 变量 并 不 进入 a.out， 它 们 
在 运行 时 创建 


图 6-1 C 语 句 的 各 部 分 会 出 现在 哪些 段 中 


BSS 段 这 个 名 字 是 “Block Started by Symbol”( 由 符号 开始 的 块 ) 的 缩写 ， 它 
是 旧式 IBM 704 汇 编程 序 的 一 个 伪 指 令 ，UNIX 借 用 了 这 个 名 字 ， 至 今 依然 沿用 。 
有 些 人 喜欢 把 它 记 作 “Better Save Space”( 更 有 效 地 节省 空间 ) 。 由 于 BSS 段 只 保 
存 没有 值 的 变量 ， 所 以 事实 上 它 并 不 需要 保存 这 些 变量 的 映像 。 运 行 时 所 需要 的 
BSS 段 的 大 小 记录 在 目标 文件 中 ， 但 BSS 段 〈 不 像 其 他 段 ) 并 不 占据 目标 文件 的 
任何 空间 。 


编程 挑战 


查看 可 执行 文件 中 的 段 


1. 编译 hello world 程 序 ， 在 可 执行 文件 中 执行 ls -1， 得 到 文件 的 总 体 大 小 。 


运行 size 得 到 文件 里 各 个 段 的 大 小 。 


2. 增加 一 个 全 局 的 int[1000] 数 组 声明 ， 重 新 进行 编译 ， 再 用 上 面 的 命令 得 到 
总 体 及 各 个 段 的 大 小 ， 注 意 前 后 的 区 别 。 


3. 现在 ， 在 数组 的 声明 中 增加 初始 值 〈 记 住 ，C 语 言 并 不 强迫 对 数组 进行 初 
始 化 时 为 每 个 元 素 提 供 初始 值 ) ， 这 将 使 数组 从 BSS 段 转换 到 数据 段 。 重 复 上 面 
的 测量 ， 注 意 各 个 段 前 后 大 小 的 区 别 。 


4. 现在， 在 函数 内 声明 一 个 巨大 的 数组 。 然 后 再 声明 一 个 巨大 的 局 部 数 
组 ， 但 这 次 加 上 初始 值 。 重 复 上 面 的 测量 。 定 义 于 函数 内 部 的 局 部 数组 存储 在 可 
执行 文件 中 吗 ? 有 没有 初始 化 有 什么 不 同 吗 ? 


5. 如 果 在 调试 状态 下 编译 ， 文 件 和 段 的 大 小 有 没有 变化 ? 是 为 了 最 大 限度 
的 优化 吗 ? 


分 析 上 面 “编程 挑战 ”的 结果 ， 使 自己 确信 : 


。 数据 段 保存 在 目标 文件 中 ; 


. BSS 段 不 保存 在 目标 文件 中 《除了 记录 BSS 段 在 运行 时 所 需要 的 大 小 ) ; 


。 文本 段 是 最 容易 受 优化 措施 影响 的 段 ; 


。 aout 文 件 的 大 小 受 调 试 状态 下 编译 的 影响 ， 但 段 不 受 影响。 


6.3 ”操作 系统 在 a.out 文 件 里 干 了 些 什么 


现在 ， 让 我 们 看 看 为 什么 a.out 要 以 段 的 形式 组 织 。 段 可 以 方便 地 映射 到 链接 
器 在 运行 时 可 以 直接 载 入 的 对 象 中 ! 载 入 器 只 是 取 文 件 中 每 个 段 的 映像 ， 并 直接 
将 它们 放 入 内 存 中 。 从 本 质 上 说 ， 段 在 正在 执行 的 程序 中 是 一 块 内 存 区 域 ， 每 个 
区 域 都 有 特定 的 目的 。 图 6-2 显 示 了 这 一 点 。 


进程 的 地 址 空间 
最 高 内 存 地 址 


堆栈 段 ( 函数 的 局 部 
| 数据 ) 
| | 


aout 文 件 空洞 


a.out 的 神奇 数字 


BSS 段 (未 初始 化 
BSS 段 所 需 的 大 小 的 数据 ) 


数据 段 (经 过 初始 化 
经 过 初始 化 的 全 局 的 数据 ) 


(指令 ) 


最 低 内 存 地 址 


图 6-2 ”可 执行 文件 中 的 段 在 内 存 中 如 何 布局 


文本 段 包 含 程序 的 指令 。 链 接 器 把 指令 直接 从 文件 复制 到 内 存 中 一般 使 用 
mmap() 系 统 调用 ) ， 以 后 便 再 也 不 用 管 它 。 因 为 在 典型 情况 下 ， 程 序 的 文本 无 论 
是 内 容 还 是 大 小 都 不 会 改变 。 有 些 操作 系统 和 链接 器 甚至 可 以 向 段 中 不 同 的 
section 赋 予 适当 的 属性 ， 例 如 ， 文 本 可 以 被 设置 为 read-and-execute-only( 只 人 允许 
读 和 执行 ) ， 有 些 数据 可 以 被 设置 为 read-write-no-execute〈 人 允许 读 和 写 ， 但 不 允 
许 执行 ) ， 而 另外 一 些 数 据 则 被 设置 为 read-only《〈 只 读 ) 等 。 


数据 段 包含 经 过 初始 化 的 全 局 和 静态 变量 以 及 它们 的 值 。BSS 段 的 大 小 从 可 
执行 文件 中 得 到 ， 然 后 链接 器 得 到 这 个 大 小 的 内 存 块 ， 并 把 它 紧 放 在 数据 段 之 
后 。 当 这 个 内 存 区 进入 程序 的 地 址 空间 后 全 部 清 零 。 包 括 数 据 段 和 BSS 段 的 整个 
区 段 此 时 通常 统称 为 数据 区 。 这 是 因为 在 操作 系统 的 内 存 管理 术语 中 ， 段 就 是 一 
片 连续 的 虚拟 地 址 ， 所 以 相 邻 的 段 被 接合 起 来 。 一 般 情 况 下 ， 在 任何 进程 中 数据 
段 是 最 大 的 段 。 


图 6-2 显 示 了 一 个 即将 执行 的 程序 的 内 存 布局 。 我 们 仍然 需要 一 些 内 存 空间 ， 
用 于 保存 局 部 变量 、 临 时 数据 、 传 递 到 函数 中 的 参数 等 。 堆 栈 段 (stack 
segment) 就 是 用 于 这 个 目的 。 我 们 还 需要 堆 (heap) 空间 ， 用 于 动态 分 配 的 内 
存 。 只 要 调用 mallocO 函 数 ， 就 可 以 根据 需要 在 堆 上 分 配 内 存 。 


注意 虚拟 地 址 空间 的 最 低 部 分 未 被 映射 。 也 就 是 说 ， 它 位 于 进程 的 地 址 空间 
内 ， 但 并 未 赋予 物理 地 址 ， 所 以 任何 对 它 的 引用 都 是 非法 的 。 在 典型 情况 下 ， 它 
是 从 地 址 零 开 始 的 几 K 字 节 。 它 用 于 捕捉 使 用 空 指针 和 小 整 型 值 的 指针 引用 内 存 
的 情况 。 


当 考 虑 共享 库 时 ， 进 程 的 地 址 空间 的 样子 如 图 6-3 所 示 。 


---- 堆栈 限制 


所 -一 另 一 块 未 映射 的 段 


共享 库 被 映射 到 这 里 


所 一 一 空洞 (未 映射 区 域 ) 


由 正在 执行 的 程序 使 用 


最 低地 址 所 一 一 第 0 页 术 被 映射 


图 6-3 ”显示 共享 库 的 虚拟 地 址 空间 布 


可 


6.4 Ci 语言 运行 时 系统 在 a.out 里 干 了 些 什么 


现在 讨论 C 语 言 怎 样 组 织 正在 运行 的 程序 的 数据 结构 的 细节 。 运 行 时 数据 结 
构 有 好 几 种 : 堆栈 、 活 动 记录 (activation record) 、 数 据 、 堆 等 。 我 们 将 依次 讨 
论 这 些 数据 结构 ， 并 分 析 它 们 所 支持 的 C 语 言 特性 。 


堆栈 段 


堆栈 段 包 含 一 种 单一 的 数据 结构 一 一 堆栈 。 堆 栈 是 一 个 经 典 的 计算 机 科学 对 
象 。 它 是 一 块 动态 内 存 区 域 ， 实 现 了 一 种 “后 进 先 出 ”的 结构 ， 有 点 类 似 于 自助 餐 
厢 里 县 在 一 起 的 盘子 。 堆 栈 的 经 典 定 义 是 它 可 以 放置 任意 数量 的 盘子 ， 但 唯一 有 
效 的 操作 就 是 从 顶部 放 或 取 一 个 盘子 。 也 就 是 说 ， 值 既 可 以 压 到 堆栈 中 ， 也 可 以 
通过 出 栈 取 得 值 。 入 栈 操作 使 堆栈 变 长 ， 出 栈 操作 从 堆栈 中 取出 一 个 值 。 


编译 器 设计 者 采用 了 一 种 稍微 灵活 的 方法 。 我 们 可 以 从 顶部 增加 或 拿 掉 盘 
子 ， 也 可 以 修改 位 于 堆栈 中 部 的 盘子 的 值 。 函 数 可 以 通过 参数 或 全 局 指针 访问 它 
所 调用 的 函数 的 局 部 变量 。 运 行 时 系统 维护 一 个 指针 〈 常 位 于 寄存 器 中 ) ， 通 常 
称 为 9p， 用 于 提示 堆栈 当前 的 顶部 位 置 。 扒 栈 段 有 3 个 主要 的 用 途 ， 其 中 两 个 跟 函 
数 有 关 ， 男 一 个 跟 表达 式 计算 有 关 。 


。 堆栈 为 函数 内 部 声明 的 局 部 变量 提供 存储 空间 。 按 照 C 语 言 的 术语 ， 这 些 变 
量 被 称 为 “自动 变量 ”。 

进行 函数 调用 时 ， 挫 栈 存 储 与 此 有 关 的 一 些 维护 性 信息 ， 这 些 信 息 被 称 为 扒 
栈 结构 (stack frame) ， 另 外 一 个 更 常用 的 名 字 是 过 程 活动 记录 〈precedure 
activation recored) 。 我 们 将 在 稍 后 详细 讨论 它 ， 但 现在 只 要 知道 它 包 括 函 数 
调用 地 址 《〈 即 所 调用 的 函数 结束 后 跳 回 的 地 方 ) 、 任 何不 适合 装 入 寄存 器 的 
参数 以 及 一 些 寄存 器 值 的 保存 即 可 。 

堆栈 也 可 以 被 用 作 和 暂时 存储 区 。 有 时 候 程序 需要 一 些 临时 存储 ， 比 如 计算 一 
个 很 长 的 算术 表达 式 时 ， 它 可 以 把 部 分 计算 结果 压 到 堆栈 中 ， 当 需要 时 再 把 


它 从 堆栈 中 取出 。 通 过 alloca() 函 数 分 配 的 内 存 束 位 于 堆栈 中 。 如 果 想 让 内 存 
在 函数 调用 结束 之 后 仍然 有 效 ， 就 不 要 使 用 alloca0 来 分 配 〈 它 将 被 下 一 个 函 
数 调用 所 履 盖 〉。 


除了 递归 调用 之 外 ， 堆 栈 并 非 必 需 的 。 因 为 在 编译 时 可 以 知道 局 部 变量 、 参 
数 和 返回 地 址 所 需 空间 的 固定 大 小 ， 并 可 以 将 它们 分 配 于 BSS 段 。BASIC、 
COBOL 和 FORTRAN 的 早期 编译 器 并 不 允许 函数 的 递归 调用 ， 所 以 它们 在 运行 时 
并 不 需要 动态 的 堆栈 。 人 允许 递归 调用 意味 着 必须 找到 一 种 方法 ， 在 同一 时 刻 允 许 
局 部 变量 的 多 个 实例 存在 ， 但 只 有 最 近 被 创建 的 那个 才能 被 访问 ， 这 很 像 堆栈 的 
经 典 定义 。 


编程 挑战 


了 这 个 小 型 测试 程序 ， 在 你 的 系统 中 发 现 堆 栈 的 大 致 位 置 : 


区 
也 
5 
上 


#include “stdio.h> 

main() 

{ 
int i; 
printf("The stack top is near %p\n", &i); 
return 6 


} 


要 发 现 数据 段 和 文本 段 的 位 置 ， 以 及 位 于 数据 段 内 的 堆 ， 方 法 是 声明 位 于 这 
些 段 的 变量 ， 并 打印 它们 的 地 址 。 通 过 调用 函数 和 声明 一 些 大 型 局 部 数组 使 堆栈 
增长 。 


现在 堆栈 顶部 的 位 置 在 哪里 了 ? 


在 不 同 的 计算 机 架构 和 不 同 的 操作 系统 中 ， 堆 栈 的 位 置 可 能 各 不 相同 。 尽 管 
我 们 讨论 的 是 堆栈 的 顶部 ， 事 实 上 在 绝 大 多 数 处 理 嚣 中， 堆栈 是 癌 下 增长 的 ， 也 
就 是 朝 着 低地 址 方向 生长 。 


6.5 ” 当 国 数 和 被 调用 时 发 生 了 什么 : 过 程 活动 记录 


本 市 搬 述 C 运 行 时 系统 在 它 自 己 的 地 址 空间 内 如 何 管理 程序 。 事 实 上 ，C 语 言 
的 运行 时 函数 非常 少 ， 但 个 个 短小 精 悍 。 相 反 的 例子 是 C++ 或 Ada。 如 果 C 程 序 需 
要 一 些 服务 (如 动态 存储 分 配 ) ， 它 通常 必须 进行 显 式 请 求 。 这 使 C 语 言 成 为 一 
种 非常 高 效 的 语言 ， 但 它 也 回程 序 员 施加 了 一 个 额外 的 负担 。 


C 语 言 自动 提供 的 服务 之 一 就 是 跟踪 调用 链 一 一 哪些 函数 调用 了 哪些 函数 ， 
以 及 当下 一 个 returmn 语 句 执 行 后 ， 控 制 将 返回 何 处 等 。 解 决 这 个 问题 的 经 典 机 制 是 
堆栈 中 的 过 程 活动 记录 。 当 每 个 函数 被 调用 时 ， 都 会 产生 一 个 过 程 活动 记录 (或 
类 似 的 结构 ) 。 过 程 活动 记录 是 一 种 数据 结构 ， 用 于 文 持 过 程 调用 ， 并 记录 调用 
结束 以 后 返回 调用 点 所 需要 的 全 部 信息 ( 见 图 6-4〉。 


局 部 变量 (local variable) 


参数 (argument) 


静态 链接 (static link) (用 于 上 层 引 用 ，C 语 言 中 不 使 用 ) 


指向 先前 结构 的 指针 


返回 地 址 (retum address) 


图 6-4 ”过 程 活 动 记录 的 规范 描述 


活动 记录 内 容 的 描述 很 具有 说 明 性 。 绪 构 的 具体 细节 在 不 同 的 编译 器 中 各 不 
相同 ， 这 些 字 有 段 的 次 序 可 能 很 不 相同 ， 而 且 可 能 还 存在 一 个 在 调用 函数 前 保存 寄 
存 器 值 的 区 域 。 头 文件 srinclude/sys/frame.h 描 述 了 过 程 活动 记录 在 UNIX 系 统 中 
的 样子 。 在 SPARC 计 算 机 上 ， 过 程 活动 记录 非常 大 《〈 几 十 个 字 ) ， 因 为 它 提 供 了 
保存 寄存 器 窗口 的 空间 。 在 x86 架 构 中 ， 过 程 活动 记录 多 少 要 小 一 些 。 运 行 时 系 
统 维护 一 个 指针 (常常 位 于 寄存 器 中 ) ， 通 常 称 为 p， 用 于 提示 活动 堆栈 结构 ， 


它 的 值 是 最 靠近 堆栈 顶部 的 过 程 活动 记录 的 地 址 。 


C 语 言 中 一 个 令 人 震惊 的 事实 ! 


绝 大 多 数 的 现代 算法 语言 允许 函数 以 及 数据 〉 在 函数 内 部 定义 。C 语 言 不 
允许 以 这 种 方法 进行 函数 的 嵌 套 。C 语 言 中 的 所 有 函数 在 词法 层次 中 都 是 位 于 最 
顶层 。 


这 个 限制 稍稍 简化 了 C 编 译 器 的 实现 。 在 Pascal、Ada、Modula-2、PL/ 或 
Algol-60 这 些 允 许 钳 套 过 程 的 语言 中 ， 活 动 记 录 一 般 要 包含 一 个 指向 它 的 外 层 函 
数 的 活动 记录 的 指针 。 这 个 指针 被 称 为 静态 链接 加 (static link) ， 它 允许 内 层 过 
程 访问 外 层 过 程 的 活动 记录 ， 因 此 也 可 以 访问 外 层 过 程 的 局 部 数据 。 在 同一 时 
刻 ， 一 个 外 层 过 程 可 能 有 好 几 个 处 于 活动 状态 的 调用 。 内 层 过 程 活动 记录 的 静态 
链接 将 指向 合适 的 活动 记录 ， 人 允许 访问 局 部 数据 的 正确 实例 。 


这 种 类 型 的 访问 (一 个 指向 词法 上 外 层 范围 的 数据 项 的 引用 ) 被 称 作 上 层 引 
用 (uplevel reference) 。 衣 态 链接 (指向 从 词法 上 讲 属 于 外 层 过 程 的 活动 记录 ， 
由 编译 时 决定 ) 之 所 以 如 此 命名 是 因为 它 与 动态 链接 相对 照 ， 后 者 是 一 个 活动 记 
录 指 针 链 (在 运行 时 指 问 最 靠近 自己 的 前 一 个 过 程 调 用 的 活动 记录 ) 。 


在 Sun 的 Pascal 编 译 器 中 ， 静 态 链接 被 作为 一 种 附加 的 隐藏 参数 ， 当 需要 时 作 
为 参数 表 的 最 后 一 个 参数 被 传递 。 这 样 就 使 得 Pascal 过 程 具有 和 C 语 言 一 样 的 活动 
记录 ， 因 而 可 以 使 用 相同 的 代码 生成 器 ， 从 而 可 以 与 C 函 数 一 起 工作 。C 语 言 本 坊 
并 不 允许 内 套 函数 。 因 此 ， 在 它 的 数据 中 并 没有 上 层 引 用 ， 所 以 在 它 的 活动 记录 
中 也 不 需要 静态 链接 。 有 些 人 要 求 C++ 应 该 增加 购 套 函数 这 个 特性 。 


下 面 的 代码 例子 用 于 显示 程序 执行 在 不 同 的 点 时 堆栈 中 活动 记录 的 情况 。 这 
是 本 书 的 一 个 难点 ， 因 为 我 们 不 得 不 处 理 动态 控制 流 ， 而 不 是 列表 显示 的 静态 代 
但 。 老 实说 ， 这 确实 比较 难 ， 但 正如 Wendy Kaminer 在 她 的 经 典 心理 学 读本 Im 
Dysfuntiona; You’re Dysfunctional 中 所 评论 的 那样 ， 只 有 短命 鬼才 需要 在 幼儿 园 里 


就 学 会 一 切 。 


a (int i) { 


1 

2 if (i > 6) 
3 a(--i) 
4 else 

5 printf("i has reached zero "); 
6 return; 

7 } 

8 

9 main() { 

16 a(1) 

11 } 


如 果 编 译 和 运行 上 面 的 程序 ， 程 序 的 控制 流 如 图 6-5 所 示 。 每 一 个 虚线 框 显 示 
一 段 进 行 函数 调用 的 源 文件 。 已 执行 的 语句 用 粗 体 显 示 。 当 控制 从 一 个 函数 转 到 
男 一 个 函数 时 ， 堆 栈 的 新 状态 显示 在 下 面 。 程 序 从 main 开 始 执行 ， 堆 栈 向 下 生 
长 。 


编译 器 设计 者 通过 不 存储 未 使 用 的 信息 来 提高 速度 。 其 他 的 优化 措施 包括 把 
言 恩 保 存 于 寄存 器 而 不 是 堆栈 中 ， 对 简单 的 函数 调用 《〈 自 映 不 调用 其 他 函数 ) 不 
将 整个 过 程 活动 记录 入 栈 ， 以 及 让 被 调用 函数 而 不 是 调用 者 负责 寄存 器 值 的 保存 
工作 。 如 果 “ 指 同 前 一 个 过 程 活动 记录 的 指针 ?位 于 过 程 活动 记录 内 部 ， 就 可 以 简 
化 当前 函数 返回 时 返回 到 前 一 个 过 程 活动 记录 的 任务 。 


图 | 编程 挑战 


堆栈 结构 


1. 手工 跟踪 上 面 这 个 程序 的 控制 流 ， 在 每 条 调用 语句 执行 后 填写 过 程 活动 
记录 的 内 容 。 对 于 每 个 返回 地 址 ， 使 用 它 将 会 返回 的 行 号 。 


2. 在 现实 中 编译 这 个 程序 ， 并 在 调试 器 中 运行 它 。 当 函数 被 调用 时 ， 注 意 
堆栈 所 增加 的 内 容 。 与 第 1 步 中 所 记录 的 内 容 进 行 对 比 ， 看 看 系统 中 过 程 活 动 记 
录 的 确切 样子 。 


记 住 ， 编 译 器 设计 者 会 尽 可 能 地 把 过 程 活动 记录 的 内 容 放 到 寄存 器 中 《因为 
可 以 提高 速度 ) ， 所 以 书 上 所 显示 的 有 些 东 西 可 能 不 在 堆栈 中 出 现 。 查 看 frame.h 
文件 ， 了 解 过 程 活 动 记录 的 布局 。 
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[ee | 


6.6 auto 和 static 关 键 字 


对 堆栈 怎样 实现 函数 调用 的 描述 也 同时 解释 了 为 什么 不 能 从 函数 中 返回 一 个 
指 癌 该 函数 局 部 自动 变量 的 指针 。 例 如 : 


char * favorite fruit () { 
char deciduous[] = "apple"; 
return deciduous; 


} 


当 进 入 该 函数 时 ， 自 动 变量 deciduous 在 堆栈 中 分 配 。 当 函数 结束 后 ， 变 量 不 
复 存 在 ， 它 所 占用 的 堆栈 空间 被 回收 ， 可 能 在 任何 时 候 被 覆盖 。 这 样 ， 指 针 就 失 
去 了 有 效 性 《引用 不 存在 的 东西 ) ， 被 称 为 悬垂 指针 ”(dangling pointer) 
它们 并 不 引用 有 用 的 东西 ， 而 是 悬 在 地 址 空间 内 。 如 果 想 返回 一 个 指向 在 函数 内 
部 定义 的 变量 的 指针 时 ， 要 把 那个 变量 声明 为 static。 这 样 就 能 保证 该 变量 被 保存 
在 数据 段 中 而 不 是 堆栈 中 。 该 变量 的 生命 期 就 和 程序 一 样 长 ， 当 定义 该 变量 的 函 
数 退 出 时 ， 该 变量 的 值 依然 能 保持 。 当 该 函数 下 一 次 进入 时 ， 该 值 依 然 有 效 。 


存储 类 型 说 明 符 auto 关 键 字 在 实际 中 从 来 用 不 着 。 它 通常 由 编译 器 设计 者 使 
用 ， 用 于 标记 符号 表 的 条 目 一 一 它 表 示 “ 在 进入 该 块 后 ， 自 动 分 配 存储 ”( 与 编译 
时 静态 分 配 或 在 堆 上 动态 分 配 不 同 ) 。 对 于 其 他 程序 员 来 说 ，auto 关 键 字 几乎 没 
什么 用 处 ， 因 为 它 只 能 用 于 函数 内 部 。 但 是 在 函数 内 部 声明 的 数据 缺 省 就 是 这 种 
分 配 。auto 唯 一 的 用 途 就 是 使 你 的 声明 更 加 清楚 整齐 ， 例 如 : 


register int filbert; 
auto int almond; 
static int hazel; 


而 不 是 : 


redgister int filbert; 
int almond; 
static int hazel; 


过 程 活动 记录 可 能 并 不 位 于 堆栈 中 


尽管 我 们 谈 到 了 “将 过 程 活动 记录 压 到 堆栈 中 ”， 但 过 程 活动 记录 并 不 一 定 要 
存在 于 堆栈 中 。 事 实 上 ， 尽 可 能 地 把 过 程 活动 记录 的 内 容 放 到 寄存 器 中 会 使 函数 
调用 的 速度 更 快 ， 效 果 更 好 。SPARC 架 构 引 入 了 一 个 概念 ， 称 为 “寄存 器 窗 
口 ”(register window) ，CPU 在 这 个 寄存 器 窗口 中 拥有 一 组 寄存 器 ， 它 们 只 用 于 
保存 过 程 活动 记录 中 的 参数 。 每 当 函 数 调用 时 ， 空 的 活动 记录 依然 压 入 到 堆栈 
中 。 当 函数 调用 链 非 常 深 而 寄存 器 窗口 不 够 用 时 ， 寄 存 器 的 内 容 就 会 被 保存 到 堆 
栈 中 保留 的 活动 记录 空间 中 ， 以 便 重 新 利用 这 些 寄存 器 。 


有 些 语言 ， 如 Xerox PARC 的 Mesa 和 Cedar， 它 们 的 过 程 活动 记录 以 链表 的 形 
式 分 配 在 堆 中 。 在 PL/I 最 早 的 编译 器 中 ， 用 于 递归 过 程 的 过 程 活动 记录 也 是 分 配 
在 堆 中 (导致 了 性 能 差 的 批评 ， 因 为 在 通常 情况 下 ， 从 堆栈 中 获取 内 存 的 速度 更 
快 一 些 ) 。 


6.7 ”控制 线程 


现在 ， 对 于 如 何在 进程 中 支持 不 同 的 控制 线程 〈 以 前 称 为 “ 轻 量 级 进程 >) 是 
比较 清楚 的 了 : 只 要 简单 地 为 每 个 控制 线程 分 配 不 同 的 堆栈 即 可 。 如 果 线 程 函数 
foo() 调 用 了 bar()， 而 后 者 又 调用 了 baz()， 而 主 程序 此 时 正 执行 其 他 的 程序 ， 它 们 
中 的 每 一 个 都 需要 自己 的 堆栈 来 保存 自己 所 处 的 位 置 。 每 个 线程 的 堆栈 为 
1Mb 〈 当 需要 时 增长 ) ， 在 各 个 线程 的 堆栈 间 有 一 个 red zone 页 。 线 程 是 一 种 非常 
强大 的 编程 模式 ， 即 使 在 单个 处 理 器 上 也 可 以 提高 性 能 。 然 而 ， 本 书 是 关于 C 语 
言 的 ， 而 不 是 关于 线程 的 。 你 应 该 参阅 其 他 书 ， 以 了 解 更 多 有 关 线 程 的 细节 。 


6.8 setjmp 和 longjmp 


现在 可 以 讨论 一 下 setmp0 和 1longjmpO 的 用 途 ， 因 为 它们 是 通过 操纵 过 程 活动 
记录 实现 的 。 许 多 程序 员 新 手 并 不 知道 这 个 强大 的 机 制 ， 因 为 它 是 C 语 言 所 独 有 
的 。 它 们 在 一 定 程 序 上 弥补 了 C 语 言 有 限 的 转移 能 力 。 这 两 个 函数 协同 工作 ， 如 
下 所 示 。 


esetjmp(jmp_buf j) 必 须 首先 被 调用 。 它 表示 “使 用 变量 j 记 录 现 在 的 位 置 。 函 数 
返回 零 ”。 

。longjmp(jmp_buf j, int i) 可 以 接着 被 调用 。 它 表示 “ 回 到 j 所 记录 的 位 置 ， 让 它 
看 上 去 像 是 从 原先 的 setjmp0 函 数 返 回 一 样 。 但 是 函数 返回 i， 使 代码 能 够 知道 
它 是 实际 上 是 通过 longjmp0 返 回 的 "。 白 不 白 口 ? 

。 当 使 用 于 longjmpO 时 ，j 的 内 容 被 销毁 。 


setjmp 保 存 了 一 份 程序 的 计数 器 和 当前 的 栈 顶 指针 。 如 果 你 喜欢 也 可 以 保存 
一 些 初始 值 。longjmp 恢 复 这 些 值 ， 有 效 地 转移 控制 并 把 状态 重 置 回 保存 状态 的 时 
候 。 这 被 称 作 “展开 堆栈 ”(unwinding stack) ， 因 为 你 从 堆栈 中 展开 过 程 活动 记 
录 ， 直 到 取得 保存 在 其 中 的 值 。 尽 管 longjmp 会 导致 转移 ， 但 它 和 goto 又 有 不 同 ， 
区 别 如 下 。 


。 goto 语 句 不 能 跳出 C 语 言 当 前 的 函数 〈 这 也 是 longjmp 取 名 的 由 来 ， 它 可 以 跳 
得 很 远 ， 甚 至 可 以 跳 到 其 他 文件 的 函数 中 ) 。 

。 用 longjmp 只 能 跳 回 到 曾经 到 过 的 地 方 。 在 执行 setjmp 的 地 方 仍 留 有 一 个 过 程 
活动 记录 。 从 这 个 角度 讲 ，longjmp 更 像 是 “从 何 处 来 ”(come from) 而 不 
是 “ 往 哪里 去 ”(goto) 。longjmp 接 受 一 个 额外 的 整 型 参数 并 返回 它 的 值 ， 


可 以 知道 是 由 longjmp 转 移 到 这 里 的 还 是 从 上 一 条 语句 执行 后 自然 而 然 来 到 
里 的 。 


这 
这 
下 面 的 代码 显示 了 setimp0 和 longjmp0 一 例 。 


#include “setJjmp .hy> 
jmp_buf buf; 


#include “setJjmp .hy> 

banana() { 
printf("in banana() \n"); 
longjmp(buf, 1); 
/* 以 下 代码 不 会 被 执行 */ 


printf("you’1ll never see this, because i longjmp’d"); 


} 
main() 


if(setjmp(buf)) 
printf("back in main\n"); 

else { 
printf("first time through\n"); 
banana( ) ; 


} 


输出 结果 如 下 : 


% a.out 

first time through 
in banana() 

back in main 


需要 注意 的 地 方 是 : 要 保证 局 部 变量 的 值 在 longjmp 过 程 中 一 直 保 持 不 变 ， 唯 
一 可 靠 的 方法 是 把 它 声明 为 volatile〈( 这 适用 于 那些 值 在 setjmp 执 行 和 longjmp 返 回 
之 间 会 改变 的 变量 ) 。 


setjmp/longjmp 最 大 的 用 途 是 错误 恢复 。 只 要 还 没有 从 函数 中 返回 ,一旦 发 现 
一 个 不 可 恢复 的 错误 ， 可 以 把 控制 转移 到 主 输入 循环 ， 并 从 那里 重新 开始 。 有 些 
人 使 用 setjmp/longjmp 从 一 串 无 数 的 函数 调用 中 立即 返回 。 还 有 一 些 人 用 它们 防范 
潜在 的 危险 代码 。 例 如 ， 当 对 下 面 例子 中 的 可 疑 指针 进行 解除 引用 操作 时 : 


switch(setjmp(jbuf)) { 

Case 0: 
apple = *suspicious; 
break ; 

Case 1: 
printf("suspicious is a bad pointer\n"); 
break; 

default: 
die("unexpected value returned by setjmp"); 


这 里 需要 一 个 处 理 程序 来 处 理 段 违规 信号 ， 后 者 进行 相应 的 longjmp(jbuf, 1) 
操作 ， 有 具体 内 容 在 第 7 章 解 释 。setimp 和 longjmp 在 C++ 中 变异 为 更 普通 的 异常 处 理 
机 制 catch 和 throw。 


编程 挑战 


跳 向 它 


在 已 经 编写 好 的 程序 源 文件 中 增加 setjmp/longjmp， 使 得 程序 在 接受 某 些 特别 
的 输入 时 会 重新 开始 。 


在 使 用 setjimp 和 longjmp 的 任何 源 文件 中 ， 必 须 包 含 头 文件 <setjimp.h>。 


像 goto 一 样 ，setmp 和 ]longjmp 使 得 程序 难以 理解 和 调试 。 如 果 不 是 出 于 特殊 
需要 ， 最 好 避免 使 用 它们 。 


6.9 ”UNIX 中 的 堆栈 段 


在 UNIX 中 ， 当 进程 需要 更 多 空间 时 ， 推 栈 会 自动 生长 。 程 序 员 可 以 想象 堆 
栈 是 无 限 大 的 。 这 是 UNIX 胜 过 其 他 操作 系统 (如 MS-DOS) 的 许多 优势 之 一 。 在 
UNIX 的 实现 中 ， 一 般 使 用 某 种 形式 的 虚拟 内 存 。 当 试图 访问 当前 系统 分 配给 堆 
栈 的 空间 之 外 的 空间 时 ， 它 将 产生 一 个 硬件 中 断 ， 称 为 页 错误 (page fault) 。 处 
理 页 错误 的 方法 有 好 几 种 ， 具 体 取决 于 对 页 面 的 引用 是 否 有 效 。 


在 正常 情况 下 ， 内 核 通 过 向 违规 的 进程 发 送 合适 的 信号 (可 能 是 段 错误 ) 来 
处 理 对 无 效 地 址 的 引用 。 在 堆栈 项 部 的 下 端 有 一 个 称 为 red zone 的 小 型 区 域 ， 如 果 
对 这 个 区 域 进 行 引 用 ， 并 不 会 产生 失败 。 相 反 ， 操 作 系 统 通 过 一 个 好 的 内 存 块 来 
增加 堆栈 段 的 大 小 。 在 不 同 的 UNIX 实 现 中 ， 有 具体 细节 有 上 所 不 同 ， 但 实际 效果 相 
似 。 附 加 的 虚拟 内 存 紧 随 当 前 堆栈 的 尾部 映射 到 地 址 空间 中 。 内 存 映 射 硬 件 确 保 
你 无 法 访问 操作 系统 分 配给 你 的 进程 之 外 的 内 存 。 


6.10 MS-DOS 中 的 堆栈 段 


在 DOS 中 ， 在 建立 可 执行 文件 时 ， 堆 栈 的 大 小 必须 同时 确定 ， 而 且 它 不 能 在 
运行 时 增长 。 如 果 所 需要 的 堆栈 空间 大 于 所 分 配 的 空间 ， 那 么 你 和 程序 都 会 迷 
失 。 如 果 设 置 了 检查 选项 ， 就 会 收 到 “STACK OVERFLOW!”( 堆 栈 洪 出 消息 。 
如 果 使 用 的 内 存 超出 了 段 的 限制 ， 编 译 器 也 会 发 出 这 样 一 条 信息 。 


条 信 


如 果 在 一 个 单一 的 段 中 放置 太 多 的 数据 或 代码 时 ，Turbo C 就 会 发 
息 ， 告 诉 你 "Segment overflowed maximum size<lsegname>”( 段 溢出 ， 超 过 了 < 段 


名 > 的 最 大 值 ) 。 在 80x86 架 构 中 ， 段 的 最 大 限制 是 64KB。 


确定 堆栈 大 小 的 方法 根据 所 使 用 的 不 同 编译 器 而 人 不同。 在 Microsoft 编 译 器 
中 ， 程 序 员 可 以 把 堆栈 的 大 小 作为 一 个 链接 器 参数 来 确定 。 


STACK: nnn 


这 个 参数 告诉 Microsoft 链 接 器 为 堆栈 分 配 nnn 字 节 。 


Borland 编 译 占 则 使 用 一 个 特殊 名 字 的 变量 : 


unsigned int _stklen = 6x4666; /* 16KB 堆栈 */ 


其 他 的 编译 器 厂商 使 用 其 他 的 方法 来 解决 这 个 问题 。 请 参看 程序 员 参 考 指南 
中 “堆栈 大 小 ”中 的 详细 内 容 。 


6.11 有 用 的 C 语 言 工 具 


本 节 包 括 了 一 些 你 应 该 知道 的 有 用 的 C 语 言 工具 ， 并 描述 了 它们 的 作用 ( 见 
表 6-1 一 表 6-4) 。 我 们 已 经 在 前 面 的 内 容 中 讲 到 了 其 中 一 些 工 具 ， 用 于 帮助 你 未 
探 进程 和 a.out 文 件 的 内 部 。 有 些 工具 是 SunOS 所 特有 的 。 本 节 提 供 了 一 个 易于 阅 
读 的 汇总 材料 ， 告 诉 你 这 些 工 具 中 的 每 一 个 是 用 来 干什么 的 以 及 可 以 在 哪里 找到 
它们 。 在 学 完 这 个 汇总 材料 之 后 ， 请 接着 阅读 每 个 工具 的 主 文档 ， 并 在 几 个 不 同 
的 a.out 中 运行 每 个 工具 。 你 既 可 以 使 用 hello world 程 序 ， 也 可 以 使 用 其 他 较 大 的 
程序 。 
请 仔细 研究 这 些 工 具 ， 如 果 你 花 15 分 钟 时 间 对 每 个 工具 进行 试验 ， 将 来 在 解 
决 Bug 问 题 时 ， 它 会 大 大 节约 你 的 时 间 。 
表 6-1 用 于 检查 源 代码 的 工具 
Be 所 做 工作 
处 
和 随 编译 器 |C 程 序 美 化 器 ， 在 源 文件 中 运行 这 个 过 滤器 ， 可 以 使 源 文 件 具 有 标准 的 布 
C 
附带 局 和 缩 进 格式 。 来 自 Berkeley 
indent 与 cb 作用 相同 。 来 自 AT&T 
cdecl | 本 书 分 析 C 语 言 的 声明 
有 编译 器 
cflow 打印 程序 中 调用 者 /被 调用 者 的 关系 
随 编译 器 | 一 个 基于 ASCII 码 C 程 序 的 交互 式 浏览 器 。 我 们 在 操作 系统 小 组 中 使 用 ， 
cscope 用 于 检查 头 文件 修改 的 效果 。 它 提供 了 对 下 列 问 题 的 快速 答案 :“ 有 多 少 


附带 命令 使 用 了 libthread” 或 “阅读 了 kmem 的 所 有 文件 是 哪些 ” 


创建 一 个 标签 文件 ， 供 vi 编辑 嚣 使用。 标签 文件 能 加 快 程序 源 文件 的 检查 


ctags |/usr/bin 


速度 ， 方 法 是 维护 一 个 表 ， 里 面 有 绝 大 多 数 对 象 的 位 置 


lint ” ”|c 程 序 检查 器 


sccs “| Musrccs/bin | 源 代 码 版 本 控 


vgrind | /usr/bin 格式 器 ， 用 于 打印 漂亮 的 C 列 表 


医生 可 以 使 用 X 射 线 、 声 谱 仪 、 内 窜 锐 和 探查 术 来 查看 病人 的 身体 内 部 。 上 
面 这 些 工 具 就 是 软件 世界 的 X 射 线 。 


表 6-2 用 于 检查 可 执行 文件 的 工具 


二 所 做 工作 


dis /usr/ccs/bin | 目标 代码 反 汇 编 工 具 


/usr/ccs/bin | 打印 动态 链接 信息 


ldd |/usr/bin 打印 文件 所 需 的 动态 


nm ”|/usr/ccs/bin | 打印 目标 文件 的 符号 表 


查看 嵌入 于 二 进 制 文 件 中 的 字符 串 。 用 于 查看 二 进 制 文 件 可 能 产生 的 错误 


strings | /usr/bin 言 息 、 内 置 文件 名 和 (有 时 候 ) 符号 名 或 版 本 和 版 权 信息 


打印 文件 的 检验 和 与 程序 块 计数 。 回 答 下 面 这 样 的 问题 “这 些 可 执行 文 


sum |/usr/bin 


件 是 同一 版 本 的 吗 ? ”传输 是 否 成 功 ?” 


表 6-3 ”帮助 调试 的 工具 


0 所 做 工作 
”| 和 何 处 和 


trace 的 SVr4 版 本 ， 这 个 工具 打印 可 执行 文件 所 进行 的 系统 调用 。 它 可 用 于 
查看 二 进 制 文件 正在 干什么 ， 以 及 为 什么 阻塞 或 者 失败 。 这 将 非常 有 月 


truss /usr/bin 


LDL 


ps /usr/bin | 显示 进程 的 特征 


随 编 译 | 修改 你 的 源 文件 ， 使 文件 执行 时 按 行 打印 。 是 一 个 对 小 程序 非常 有 用 的 工 


ctrace 
器 附带 | 具 
随 编译 
debugger | ,入 | 交互 式 调试 
告诉 你 一 个 文件 包含 的 内 容 ( 如 可 执行 文件 、 数 据 、ASCII、Shell 脚 本 、 
file /usr/bin 
archive 等 ) 
表 6-4 性能 优化 辅助 工具 
工具 | 位 于 何 处 所 做 工作 
汀 编译 器 附 
collector a ; (SunOS 独 有 ) 在 调试 器 控制 下 收集 运行 时 性 能 数据 


有 有 编译 蝶 队 
analyzer ek (SunOS 独 有 ) 分 析 已 收集 的 性 能 数据 


gprof ”|/usr/ccs/bin ”| 显示 调用 图 配置 数据 (确定 计算 密集 的 函数 ) 


示 每 个 程序 所 耗 时 间 的 百分比 


Sil 


Prof /usr/ccs/bin 


随 编译 器 附 “| 显示 每 条 语句 执行 次 数 的 计数 〈 用 于 确定 一 个 函数 中 计算 密集 的 循 
带 环 ) 


tcCOV 


time /usr/bin/time | 显示 程序 所 使 用 的 实际 时 间 和 CPU 时 间 


如 果 你 工作 于 操作 系统 的 内 核 模 式 ， 则 无 法 使 用 绝 大 多 数 运行 时 工具 ， 因 为 
内 核 并 不 像 用 户 进程 那样 运行 。 可 以 使 用 编译 时 工具 如 lint， 但 除 此 之 外 我 们 只 能 
使 用 石 妨 和 燃 和 伯 了 : 将 有 序 模式 放 入 内 存 中 ， 看 看 它们 何 时 被 覆盖 《最 常 使 用 的 
两 个 是 十 六 进 制 常量 deadbeef 和 abadcafe) ， 以 及 使 用 printf 或 类 似 的 函数 并 记录 跟 
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BE,,. 
软件 信条 


用 grep 调 试 内 核 


当 内 核 检 测 到 “不 会 出 现 ” 的 情况 时 ， 它 就 会 < 惊 惰 失 措 ?， 引 起 突然 停止 。 例 
如 ， 当 它 寻 找 一 些 具体 数据 时 ， 却 发 现 了 一 个 null 指 针 。 由 于 它 无 法 从 这 种 情况 
中 恢复 ， 因 此 最 安全 的 方法 就 是 在 数据 消失 前 中 断 处 理 器 。 为 解决 内 核 的 “ 惊 
慨 ?” 问 题 ， 首 先 必 须 考 虑 有 哪些 事情 有 可 能 吓 坏 操作 系统 。 


Sun 的 内 核 开 发 小 组 有 一 个 很 隐蔽 的 Bug， 非 常 难以 被 发 现 ， 其 症状 是 内 核 的 
内 存 偶尔 会 被 覆盖 ， 这 会 使 系统 “惊慌 ”。 


我 们 队伍 中 的 两 个 顶尖 工程 师 着 手 处 理 这 个 问题 ， 他 们 注意 到 一 个 内 存 块 的 
前 19 字 节 总 是 被 涂抹 。 这 是 一 个 不 寻常 的 偏 移 量 ， 不 像 别处 出 现 的 >、4、8 等 常 
见 值 。 其 中 一 个 工程 师 灵机 一 动 ， 使 用 这 个 偏 移 量 来 寻找 这 个 Bug。 他 建议 用 内 
核 调试 器 kadb 来 反 汇编 内 核 二 进 制 文 件 的 映像 〈 花 了 一 小 时 时 间 ) ， 并 将 结果 输 
出 到 一 个 ASCII 文 件 中 。 然 后 ， 他 们 用 grep 对 这 个 文件 进行 搜索 ， 寻 找 操作 数 指示 
偏 移 量 为 19 的 store 指 令 ! 


这 些 指令 中 的 其 中 一 个 肯定 是 引起 问题 的 根源 。 


一 共有 8 条 这 样 的 指令 ， 它 们 都 位 于 处 理 进 程控 制 的 子 系统 中 。 现 在 ， 他 们 
对 问题 出 在 什么 地 方 已 经 比较 明确 了 ， 接 下 来 要 做 的 就 是 找 出 它 。 进 一 步 努 力 之 
后 ， 他 们 终于 找到 了 罪魁 祸首 :位 于 一 个 进程 控制 结构 中 的 竞争 条 件 。 它 的 用 意 
是 一 个 线程 在 其 他 线程 (调用 了 该 线程 》 真 正 完成 工作 之 前 先 在 内 存 中 作 个 标 
记 ， 以 便 以 后 返回 系统 。 结 果 内 核 内 存 分 配器 把 这 块 内 存 分 配给 了 别人 ， 但 进程 
控制 块 仍 以 为 它 还 保留 有 这 块 内 存 ， 所 以 癌 其 写 入 ， 这 样 就 导致 了 这 个 极 难 发 现 
的 Bug。 


用 grep 来 调试 操作 系统 内 核 是 一 个 非 同 寻常 的 概念 。 有 了 时候 甚 至 连 源 代码 工 
具 都 可 以 帮助 解决 运行 时 间 题 ! 


在 讨论 这 些 有 用 工具 的 同时 ， 表 6-5 列 出 了 一 些 识别 Sun 系 统 确切 配置 的 方 
法 。 然 而 ， 除 非 你 在 实践 中 使 用 它们 ， 否 则 它们 对 你 不 会 有 多 大 帮助 。 


表 6-5 ”帮助 你 识别 硬件 的 工具 


| 识别 什么 | 典型 输出 如 何 调用 


内 核 体系 sun4c /usr/kvm/arch —k 
任何 用 于 OS 的 补 EX 
丁 未 安装 补丁 /usr/bin/showrev -p 
各 种 硬件 许多 /usr/sbin/prtconf 
CPU 时 钟 频率 40MHz 处 理 器 /usr/sbin/psrinfo —v 
主机 ID 554176fe /usr/ucb/hostid 
内 存 32MB 在 开机 时 启示 
序列 号 4290302 在 开机 时 启示 
ROM 版 本 2.4.1 在 开机 时 启示 
安装 的 磁盘 198MB 磁 盘 /usr/bin/df ~-F ufs -kk 
交换 区 40MB /etc/swap -Ss 
/usr/sbin/ifconfig -a 以 太 网 地 址 被 建立 到 电 
以 太 网 地 址 8:0:20:f:8c:60 人 和 
IP 地 址 le0=129.144.248.36 /usr/sbin/ifconfig -a IP 地 址 被 建立 到 网 络 中 
ee FPU 的 频率 显示 为 
浮 点 数 硬件 in fpversion 随 编译 器 附带 


38.2MHz 


6.12 ”轻松 一 下 一 一 卡耐基 ' 梅 隆 大 学 的 编程 难题 


几 年 前 ， 卡 耐 基 : 梅 隆 大 学 的 计算 机 科学 系 有 一 个 常规 性 的 小 型 编程 竞赛 ， 参 
赛 对 象 是 刚 入 学 的 研究 生 。 竞 赛 的 目的 是 让 这 些 新 的 研究 人 员 得 到 一 些 关 于 计算 
机 科学 系 的 直接 经 验 ， 并 让 他 们 展示 自己 的 强大 潜力 。 卡 耐 基 : 梅 隆 大 学 在 计算 机 
领域 的 研究 历史 悠久 ， 可 以 追溯 到 计算 机 的 先驱 时 代 ， 它 在 这 个 领域 所 取得 的 成 
就 可 以 说 是 非 同 凡 响 。 所 以 ， 对 于 卡耐基 : 梅 隆 大 学 举办 的 编程 竞赛 ， 其 水 准 可 想 
而 知 。 


比赛 的 形式 每 年 都 不 一 样 ， 其 中 有 一 年 非常 简单 。 参 赛 者 必须 读 入 一 个 文件 
(文件 的 内 容 是 一 些 数值 )， 并 打印 这 些 数值 的 平均 数 。 只 有 下 面 这 两 个 规则 。 


1. 程序 的 运行 速度 要 尽 可 能 快 。 


2. 程序 必须 用 Pascal 或 C 编 写 。 


参赛 选手 的 程序 集中 之 后 由 计算 机 科学 系 的 一 名 工作 人 员 分 批 上 交 。 学 生 可 
以 自愿 上 交 尽 可 能 多 的 作品 ， 这 可 以 鼓励 非 确定 性 随机 算法 《就 是 猜测 茶 些 数据 
集 的 特征 ， 利 用 猜测 结果 获得 尽 可 能 快 的 效率 ) 的 使 用 。 决 定性 的 规则 是 : 运行 
时 间 最 短 的 程序 将 获胜 。 


这 些 研究 生 纷 纷 钼 进 各 个 角落， 开始 折腾 各 种 名 样 的 程序 。 他 们 中 的 绝 大 多 
数 都 准备 了 3 一 4 个 程序 参加 竞赛 。 在 此 ， 读 者 也 可 以 想 想 有 什么 样 的 技巧 可 以 使 
程序 运行 得 更 快 。 


编程 挑战 


怎样 突破 速度 限制 


想象 一 下 ， 假 如 你 接 到 一 个 任务 ， 要 求 读 入 一 个 内 容 是 10000 个 数值 的 文 
件 ， 并 计算 这 些 数值 的 平均 数 。 你 的 程序 的 运行 时 间 必 须 尽 可 能 得 短 。 


你 会 采用 什么 样 的 编程 和 编译 技巧 来 提高 速度 ? 


大 多 数 人 都 猜想 最 大 的 赢家 一 定 采 用 了 代码 优化 措施 ， 不 管 是 显 式 地 在 代码 
中 使 用 ， 还 是 通过 正确 设置 编译 器 选项 隐 式 地 使 用 。 标 准 的 代码 优化 技巧 包括 消 
除 循环 、 函 数 代 码 就 地 扩展 、 公 共 子 表达 式 消 除 、 改 进 寄 存 器 分 配 、 省 略 运 行 时 
对 数组 边界 的 检查 、 循 环 不 变量 代码 移动 (loop-invariant code motion ) 、 操 作 符 
长 度 削 减 〈 把 指数 操作 转变 为 乘法 操作 ， 把 乘法 操作 转变 为 移 位 操作 或 加 法 操作 


等 ) 等 
于 5。 


数据 文件 大 约 包 含 了 10000 个 数值 ， 假 定 读 入 和 处 理 每 个 数 需 要 1 毫秒 (当时 
的 系统 差不多 就 是 这 个 速度 ) ， 最 快 的 程序 也 要 用 10 秒 左右 。 


实际 结果 非常 令 人 吃惊 。 其 中 最 快 的 一 个 程序 ， 操 作 系 统 报 告 用 时 为 -3 秒 。 
确实 如 此 一 一 获胜 程序 的 运行 时 间 是 负数 ! 第 二 快 的 程序 大 约 用 了 几 毫 秒 ， 而 排 
名 第 三 的 作品 恰好 比 预期 的 10 秒 稍微 少 一 点 。 显 然 ， 获 胜 者 在 编程 中 作 了 浆 ， 但 
他 是 怎样 作 浆 的 呢 ? 评委 们 在 对 获胜 程序 进行 仔细 审查 后 ， 答 案 揭 晓 了 。 


这 个 运行 时 间 为 负 的 程序 充分 利用 了 操作 系统 。 程 序 员 知道 进程 控制 块 相对 
于 堆栈 底部 的 存储 位 置 ， 他 用 一 个 指针 来 访问 进程 控制 块 ， 并 用 一 个 非常 大 的 值 
覆盖 “CPU 已 使 用 时 间 ?” 字 段 B1。 操 作 系统 未 兽 想 到 CPU 时 间 会 有 如 此 之 大 ， 因 此 
错误 地 以 二 进 制 补 码 方案 把 这 个 非常 大 的 数 解释 为 负数 。 


至 于 那个 费时 仅 几 晕 秒 的 亚军 程序 得 主 同样 狭 猎 ， 他 用 的 方法 有 所 不 同 。 他 
使 用 的 是 竞争 规则 ， 而 不 是 怪异 的 编码 。 他 提交 了 两 个 不 同 的 程序 ， 其 中 一 个 读 


入 数据 ， 用 正常 的 方法 计算 平均 值 ， 并 将 管 案 写 入 一 个 文件 。 第 二 个 程序 绝 大 部 
分 时 间 都 处 于 睡眠 状态 ， 它 每 隔 几 秒 醒 来 一 次 检查 答案 文件 是 否 已 存在 ， 如 果 已 
经 存在 ， 就 打印 其 结果 。 第 二 个 程序 总 共 只 占用 了 几 暑 秒 的 CPU 时 间 。 由 于 参赛 
者 允许 递交 多 个 作品 ， 所 以 这 个 用 时 极 少 的 程序 就 把 他 推 上 了 亚军 的 位 置 。 


季军 作品 所 花 的 时 间 比 预想 的 最 小 时 间 还 要 稍 少 一 些 。 该 程序 的 构思 最 为 周 
详 ， 程 序 员 婵 精 竟 虑 ， 通 过 优化 机 器 代码 来 解决 问题 ， 并 把 指令 作为 整 型 数组 存 
储 在 程序 中 。 由 于 在 程序 中 禾 盖 堆栈 上 的 返回 地 址 是 非常 容易 的 《正如 Bob 
Moris, Jr. 于 1988 年 在 Internet 晴 虫 中 所 做 的 那样 ) ， 所 以 程序 可 以 跳 转 到 这 个 整 型 
数组 并 逐条 执行 这 些 指令 。 所 记录 的 时 间 如 实 反映 了 这 些 指令 解雇 问题 的 时 间 。 


当 这 些 策略 被 揭露 后 ， 达 动 了 全 系 。 有 些 专家 赞成 对 获胜 者 进行 严 历 批 评 ; 
一 群 年 轻 教 授 则 相反 ， 他 们 建议 给 予 额外 的 奖励 以 进行 表彰 。 最 后 ， 双 方 达成 受 
协 : 既 没有 颁奖 ， 也 未 对 他 们 进行 惩罚 ， 结 果 不 了 了 之 。 令 人 悲哀 的 是 ， 这 个 竞 
赛 成 了 强烈 感情 的 牺牲 品 。 从 此 以 后 ， 这 个 比赛 再 未 举行 。 


6.13 ”只 适用 于 高 级 学 员 阅 读 的 材料 


对 智者 之 语 : 可 以 把 汇编 代码 租 入 到 C 代 码 中 。 这 通常 只 用 于 深入 操作 系统 
核心 且 非 常 依赖 机 器 的 任务 。 例 如 设置 某 个 特别 的 寄存 器 ， 把 系统 的 状态 从 管理 
员 模 式 转变 为 用 户 模式 。 现 在 ， 我 们 把 一 条 no-op 〈 或 其 他 指令 ) 插入 到 使 用 
SunPro SPARCompiler 的 C 函 数 中 : 


banana() { asm("nop"); } 


下 面 是 在 PC 中 使 用 Microsoft C 舱 入 汇编 语言 指令 的 方法 : 


_ _asm mov ah, 2 
_ _asm mov dl, 43h 


可 以 在 汇编 代码 前 冠 以 关键 字 ” _asm”， 也 可 以 只 使 用 该 关键 字 一 次 ， 把 所 
有 的 汇编 代码 放 入 一 对 花 括 号 内 ， 如 下 : 


_ _asm{ 
mov ah, 2 
mov dl, 43h 
int 21h 
} 


编译 器 并 不 会 对 代码 作 多 少 检查 ， 所 以 很 容易 创建 衣 尝 的 程序 。 但 这 是 一 种 
很 好 地 学 习 某 种 机 器 指令 集 的 实践 方法 。 请 看 一 下 SPARC 架 构 手 册 、 汇 编程 序 手 
册 《〈 大 部 分 用 于 讲述 语法 和 指导 ) 和 某 个 SPARC 销 售 商 所 提供 的 数据 图 书 ， 如 
Cypress Semiconductor 的 SPARC RISC User’s Guide。 


[1] 它 的 确 差 不 多 用 了 一 章 的 篇 幅 来 讲述 ， 请 看 下 一 章 。 


[2] 千 万 不 要 把 活动 记录 中 的 静态 链接 同 前 面 章节 里 提 到 的 静态 链接 混为一谈 。 
前 者 允许 上 层 引 用 词法 上 外 层 过 程 的 局 部 数据 ， 而 后 者 表示 一 种 把 所 有 库 的 副本 
放 于 可 执行 文件 中 的 过 时 方法 。 在 前 面 的 章节 里 ，“ 静 态 ” 表 示 “ 在 编译 时 进行 ”; 


在 本 章 ， 它 表示 程序 的 词法 布局 。 


[3] 这 是 一 种 对 规则 的 具名 昭著 的 得 用 ， 类 似 于 阿根廷 足球 巨星 马 拉 多 纳 在 1986 
年 世界 杯 用 上 和 臂 打 入 英格兰 队 一 球 的 * 上 稼 之 手 ”。 


第 7 革 ”对 内 存 的 思 


大 师 向 他 的 一 位 新 学 生 解 释 道 的 本 质 。 


“ 道 强 含 于 所 有 的 软件 中 ， 不 管 它们 是 多 么 微不足道 。 ”大师 说 道 。 


“那么 ， 道 是 否 存 在 于 手持 式 计算 器 中 ? "学 生 问 道 。 
“是 的 。” 大 师 回 答 。 

“那么 道 是 否 存 在 于 视频 游戏 中 ?*” 学 生 继 续 问 。 
“是 的 ， 即 便 它 是 一 个 视频 游戏 。” 大 师 回答 。 
“那么 ， 道 是 不 是 存在 于 PC 的 DOS 上 ? ” 


大 师 咳 嗽 了 几 声 ， 微 微 移 动 了 一 下 位 置 ， 答 道 :“ 它 可 能 会 存在 于 鲍 勃 的 活动 
记录 中 ， 今 天 的 课 就 到 此 为 止 。” 


一 一 Geoffrey James, The Tao of Programming 


本 章 从 讨论 Intel 80x86 处 理 器 系列 (IBM PC 的 核心 ) 的 内 存 体 系 开 始 ， 将 PC 
的 内 存 模 型 与 其 他 系统 中 的 虚拟 内 存 模型 进行 了 对 比 。 程 序 员 如 果 对 内 存 体 系 有 
一 个 充分 的 了 解 ， 将 有 助 于 他 们 理解 C 语 言 中 的 一 些 约定 和 限制 。 


7.1 Intel 80x86 系 列 


现代 的 Intel 处 理 器 可 以 追溯 到 最 早期 的 Intel 蕊 片 。 随 着 用 户 对 蕊 片 的 使 用 越 
来 越 复杂 ， 他 们 对 芯片 的 要 求 也 越 来 越 高 。Intel 总 是 能 够 及 时 提供 辐 后 兼容 的 处 
理 器 。 可 兼容 性 使 用 户 更 容易 升级 到 新 的 芯片 ， 但 这 也 严重 限制 了 忌 片 的 革新 。 
现代 的 Pentium 处 理 器 是 15 年 前 Intel 8086 处 理 器 的 直接 后 代 ， 它 存在 着 许多 架构 上 
的 不 规整 性 ， 目 的 就 是 为 了 与 8086 保 持 向 后 兼容 《在 8086 上 编译 的 程序 可 以 在 
Pentium 上 运行 ) 。 由 于 Intel 在 保持 必 片 兼容 性 的 同时 不 得 不 限制 一 些 革 新 ， 所 以 
有 些 人 不 客气 地 评论 “Intel 在 保持 向 后 兼容 性 的 同时 落伍 了 ..…....”( 见 图 7-1)。 


| 技术 突破 
年 份 

1970 4004 4 位 

8008 8 位 
技术 突破 
1974 8080 8 位 
8085 8 位 
技术 突破 
80186 16 位 技术 突破 
1983 80286 32 位 
80386 32 位 
80486 32 位 
1993 Pentium 32 位 
v P6 64 位 ? 


图 7-1 Intel 80x86 家 族 :“ 在 保持 向 后 兼容 时 落后 了 ” 


Intel 4004 是 一 个 4 位 的 微 控制 器 。 它 是 1970 年 Intel 为 满足 独家 客户 
Busicom 〈 一 家 日 本 计算 器 公司 ) 的 特殊 需要 而 开发 的 。Intel 的 设计 工程 师 的 想法 


是 生产 一 种 通用 目的 的 可 编程 芯片， 而 不 是 遵循 当时 为 每 个 顾客 量 身 定做 的 逻辑 
规则 。Intel 原 先 设 想 售 出 几 百 块 这 样 的 芯片 ， 但 通用 目的 设计 很 快 显示 了 巨大 的 
应 用 潜力 。4 位 的 字 长 实在 太 小 了 ， 上 所 以 在 1972 年 4 月 ，8 位 的 8008 心 请 诞生 了 。 

两 年 后 ，8080 心 片 诞 生 了 ， 这 是 第 一 片 性 能 强大 到 可 以 称 其 为 微 处 理 器 的 芯片 。 
它 包含 完整 的 8008 指 令 集 ， 并 增加 了 30 条 自己 的 指令 ， 从 而 开创 了 一 个 沿用 至 今 
的 传统 。 如 果 说 4004 是 一 块 使 Intel 开 创 事业 的 芯片 ， 那 么 8080 就 是 一 块 为 Intel 带 
来 财富 的 芯片 ， 它 使 Intel 的 年 度 营业 额 突破 了 10 亿 美元 ， 并 高 居 财 富 500 强 的 前 
列 。 


8085 处 理 器 充分 利用 了 攻 片 整合 技术 ， 它 将 3 块 必 片 组 合成 一 块 。 在 本 质 
上 ， 它 是 把 8080 处 理 器 、8224 时 钟 驱动 器 和 8228 控 制 器 整合 到 一 块 世 片上。 虽然 
它 内 部 的 数据 总 线 宽度 仍然 是 8 位 ， 但 它 使 用 了 16 位 的 地 址 总 线 ， 所 以 能 够 访问 
21 也 就 是 64KB 的 内 存 。 


8086 处 理 器 于 1978 年 诞生 ， 它 对 8085 做 了 改进 ， 人 允许 16 位 的 数据 总 线 和 20 位 
的 地 址 总 线 ， 可 以 访问 多 达 1MB 的 内 存 ( 这 在 当时 是 一 个 非常 惊人 的 数字 ) 。 这 
块 坊 片 采用 了 一 个 非 比 寻常 的 设计 决定 ， 它 通过 重 且 两 个 16 位 的 字 来 形成 20 位 的 
地 址 ， 而 不 是 通过 简单 地 连接 两 个 字 来 形成 32 位 的 地 址 〈 见 图 7-2) 。8086 在 指令 
集 一 级 上 与 8085 不 兼容 ， 但 汇编 程序 宏 〈assembler macro) 可 以 很 容易 地 把 原来 
的 程序 转移 到 新 的 芯片 上 。 


16 位 值 加 上 …… 


3 3 
经 过 移 位 的 16 位 值 15 0 
十 > We 
产生 一 个 20 位 的 地 址 19 0 


第 一 个 16 位 值 可 称 为 “ 偏 移 量 ”， 第 二 个 16 位 字 经 过 移 位 后 称 为 “ 段 ”， 8086 
芯片 有 4 个 段 寄存 器 ， 用 于 存储 段 地 址 的 信 ， 并 能 自动 进入 移 位 和 加 法 操作 来 产生 20 
位 的 地 址 。 

8086 有 代码 寄存 器 CS， 数 据 寄存 器 DS 和 堆 校 寄存 器 S$， 分 别 存放 代码 段 、 数 据 
段 和 叭 楼 段 的 首 地 址 ， 另 外 还 有 一 个 附加 段 ES。 从 编译 者 作者 的 角度 看 ， 这 些 是 非常 
有 用 的 。 


图 7-2 ”Intel 8086 如 何 形成 内 存 地址 


8086 所 采用 的 异乎 常规 的 寻 址 策略 使 8085 上 的 代码 移植 到 8086 更 加 简单 。 当 
某 个 段 寄 存 器 装 入 一 个 固定 的 值 后 ， 便 无 须 再 理 皮 它们 ， 直 接 使 用 8085 的 16 位 地 
址 就 可 以 了 。 设 计 团 队 握 弃 了 把 两 个 字 连 接 在 一 起 形成 地 址 的 想法 ， 这 个 方法 可 
以 产生 32 位 地 址 ， 可 以 访问 的 内 存 多 达 4GB (这 在 当时 是 一 个 不 可 想象 的 天 文 数 


3 


字 ) 。 


既然 确立 了 这 个 基本 的 地 址 模型 ， 后 续 的 80x86 处 理 器 不 得 不 延续 这 种 做 
法 ， 否 则 就 会 导致 不 兼容 性 。 如 果 说 8080 是 一 块 使 ntel 跻 身 豪门 行列 的 芯片 ， 那 
么 8086 就 是 一 块 使 mtel 保 持 豪 门 位 置 的 芯片 。 我 们 可 能 永远 不 会 知道 TBM 在 1979 
年 选择 Intel 的 8088“〈 一 种 与 8086 同 代 的 8 位 芯片 ) 作为 它 新 开发 的 PC 的 CPU 的 确 
切 原 因 。 从 技术 上 说 ， 当 时 有 许多 公司 可 以 提供 更 为 出 色 的 方案 ， 如 Motorala 和 
National Semiconductor。 由 于 选择 了 ntel 的 芯片 ，IBM 帮 助 Intel 在 接 下 来 的 20 多 年 
里 财源 滚滚 ， 就 像 IBM 选 择 了 Microsoft 的 MS-DOS 作 为 PC 的 操作 系统 ， 从 而 使 
Microsoft 飞黄腾达 一 样 。 具 有 讽刺 意味 的 是 ，1993 年 8 月 ，Intel 的 股票 市 值 达到 了 
266 亿 美元 ， 超 过 了 IBM 的 245 亿 美元 ， 从 而 取代 IBM 成 为 美国 市 值 最 高 的 电子 类 


公司 。 


Intel 和 Microsoft 凭 借 其 独家 经 营 的 产品 ， 获 得 了 远 远 超出 其 贡献 的 暴利 ， 成 
为 新 的 IBM。IBM 仍 在 绝望 地 挣扎 ， 试 图 恢复 自己 以 前 的 地 位 。 它 推出 
PowerPC， 企 图 打破 Intel 在 人 硬件 上 的 垄断 ， 同 时 推出 OS/2 操 作 系 统 ， 试 图 动摇 
Microsoft 在 软件 上 的 统治 。OS/2 失 败 无 疑 ， 但 断定 PowerPC 的 厄运 则 为 时 尚 早 。 


用 于 最 初 的 IBM PC 的 8088 处 理 器 只 是 8086 的 一 种 廉价 版 本 ， 它 允许 继续 使 用 
当时 大 量 存 在 的 支持 8 位 的 芯片。 此后， 对 80x86 人 处理 器 的 升级 都 体现 在 “更 小 、 更 
快 、 更 便宜 以 及 更 多 的 指令 * 上 。80186 走 的 就 是 这 条 路 ， 它 增加 了 10 条 并 不 是 很 
重要 的 指令 。80286 差 不 多 就 是 80186 (只 是 内 置 了 一 些微 不 足 道 的 外 设 端 口 支 
持 ) ， 但 它 第 一 次 试图 扩展 内 存 地 址 空间 。 它 把 内 存 控制 器 移 到 处 理 器 必 片 的 外 
面 ， 并 提供 了 一 种 野心 勃勃 的 内 存 模式 ， 称 为 虚拟 模式 〈virtual mode) 。 在 虚拟 
模式 中 ， 段 寄存 器 并 不 与 偏 移 地 址 相 加 ， 而 是 为 一 个 存放 实际 段 地 址 的 表 提 供 索 
引 。 这 种 地 址 模式 也 被 称 作 保 护 模 式 (protected mode) ， 它 依然 是 16 位 的 。MS- 
Windows 使 用 286 的 保护 模式 作为 它 的 标准 地 址 模式 。 


80386 在 80286 的 基础 上 增加 了 两 种 新 的 地 址 模式 : 32 位 的 保护 模式 和 虚拟 的 
8086 模 式 。Microsoft 的 旗舰 产品 windows NT 操作 系统 和 增强 模式 下 的 Windows 都 
采用 了 32 位 的 保护 模式 。 这 就 是 为 什么 Windows NT 至 少 需要 386 才 能 运行 的 原 
因 。 另 一 种 内 存 模式 〈 虚 拟 的 8086 模 式 ) 可 以 创建 一 种 内 存 空间 为 1IMB 的 8086 虚 
拟 机 。 几 个 虚拟 机 可 以 同时 运行 ， 从 而 文 持 MS-DOS 的 虚拟 多 任务 系统 。 它 们 中 
的 每 一 个 都 认为 自己 运行 于 自己 的 8086 处 理 器 上 。 此 时 ， 你 应 该 能 够 想到 ， 由 于 
最 初 内 存 地 址 策略 的 限制 ， 处 理 日 益 增 长 的 内 存 空间 的 需要 将 是 一 件 国手 的 事 。 
你 想 得 没 错 ! 对 于 编写 编译 器 和 应 用 程序 而 言 ，80x86 是 一 个 充满 困难 和 挫折 的 
架构 。 


上 述 所 有 这 些 处 理 器 都 可 以 附加 协 处 理 器 ， 通 常用 于 实现 浮 点 数 的 硬件 支 
持 。8087 和 80287 协 处 理 器 是 一 样 的 ， 唯 一 的 区 别 是 287 可 以 和 286 一 样 扩展 对 内 
存 的 访问 。387 可 以 使 用 和 386 一 样 的 模式 访问 内 存 ， 但 它 同 时 增加 了 一 些 内 置 的 
高 级 功能 。 


Ey 软件 信条 


选择 IBM PC 的 组 件 


IBM 在 PC 上 所 做 的 部 分 决定 也许 是 大 部 分 决定 ) 显然 是 出 自 非 技术 的 背 
景 。 在 决定 采用 MS-DOS 之 前 ，IBM 安 排 了 一 个 会 议 ， 与 Digital Research 公 司 的 
Gary Kildall 障 讨 CP/M 操 作 系 统 的 事宜 。 就 在 会 议 举行 的 当天 ， 出 现 了 人 们 传说 中 
的 故事 : 由 于 天 气 非常 好 ，Gary Kildall 决 定 改 坐 自 己 的 私人 飞机 与 会 ， 结 果 误 
点 。IBM 的 经 理 可 能 对 长 时 间 等 待 巾 感 恼 火 ， 便 转 而 与 Microsoft 匆 匆 达 成 了 协 
议 。 


Bill Gates 当 时 刚 从 Seattle Computer Product 公 司 购买 了 QDOSIH， 对 它 稍 作 整 
理 后 ， 更 名 为 MS-DOS。 接 下 来 的 故事 ， 都 已 是 人 们 津津 乐 道 的 历史 典故。IBM 
很 高 兴 ，Intel 也 很 高 兴 ，Microsoft 则 是 非常 非常 高 兴 。Digital Research 自 然 不 会 
愉快 。 数 年 以 后 ，Seattle Computer Products 意 识 到 自己 放 走 了 一 个 有 史 以 来 销量 
最 大 的 计算 机 程序 后 ， 自 然 也 不 会 愉快 。 他 们 仍 保留 了 一 个 权利 ， 就 是 他 们 在 销 
售 人 硬件 时 可 以 同时 销售 MS-DOS。 这 就 是 为 什么 过 去 你 能 看 到 一 些 出 自 Seattle 
Computer Products 的 MS-DOS 的 原因 ， 它 们 被 滑稽 地 附 在 显然 已 经 没 用 的 Intel 蕊 片 
产品 上 ， 从 而 “庄严 ”地 履行 它们 与 Microsoft 所 达成 的 协议 。 


不 要 为 Seattle Computer Products 感 到 太 遗 憾 ， 他 们 的 QDOS 本 身 在 很 大 程度 也 
是 基于 Gray Kildall 的 CP/M。 而 Gray Kildall 似 乎 更 热衷 于 飞行 。Bill Gates 后 来 用 
销售 软件 的 利润 购买 了 一 辆 性 能 出 众 、 快 如 内 电 的 保时捷 959 跑 车 ， 花 了 75 万 美 
元 ， 但 在 进入 美国 海关 时 却 出 了 问题 。 保 时 捷 959 无 法 在 美国 区 驶 ， 因 为 它 没有 
通过 美国 政府 规定 的 必须 进行 的 防 撞 性 测试 。 这 辆 跑车 至 今 仍然 搁置 在 奥克兰 的 
一 个 仓库 里 ， 从 来 没有 驾驶 过 ， 这 大 概 是 Bill Gates 唯 一 可 以 保证 不 会 月 演 的 产 


80486 是 一 种 经 过 重新 包装 的 80386。 它 的 速度 更 快 一 些 ， 因 为 总 线 缺 乏 允 许 
安装 协 处 理 器 的 状态 。 它 既 可 以 附加 486 协 处 理 器 ， 也 可 以 不 附加 ， 分 别称 为 DX 
和 SX。486 适 当地 增加 了 一 些 指令 ， 并 在 处 理 器 内 部 集成 了 cache《〈 高 速 的 处 理 器 
内 存 ) ， 其 余部 分 的 性 能 提高 主要 应 归功 于 它 。 然 后 便 到 了 20 世 纪 90 年 代 ， 在 经 
过 巨大 的 技术 革新 和 产品 商标 上 的 争论 后 ，Intel 将 它 的 新 芯片 命名 为 Pentium， 而 
不 是 80586。 它 更 加 快速 ， 更 加 昂贵 ， 支 持原 先 的 所 有 指令 ， 并 增加 了 一 些 新 指 
令 。 可 以 预料 80686 将 会 更 快 ， 更 昂贵 ， 并 再 额外 提供 了 一 些 指令 。 激 励 Intel 连 续 
推出 新 芯片 的 格言 就 是 “要 么 更 快 ， 要 么 灭亡 ”， 而 它们 就 是 依靠 这 个 格言 生存 
的 。 正 如 我 年 迈 的 祖母 在 退休 后 坐 在 轮椅 上 时 曾 说 过 的 那样 , “那些 筷 记 历史 的 人 
注定 会 出 现 严 重 的 向 后 兼容 问题 ， 尤 其 当 他 们 改变 内 存 的 地 址 模式 或 机 器 架构 的 
字 长 时 。” 


7.2 ”Intel 80x86 内 存 模型 以 及 它 的 工作 原理 


正如 在 第 6 章 里 看 到 的 那样 ， 段 (segment〉 这 个 术语 至 少 有 两 种 不 同 的 含义 
《其实 还 存在 第 三 种 含义 ， 它 跟 操 作 系统 的 内 存 管 理 有 关 ) 。 


。 在 UNIX 中 ， 段 束 是 一 块 以 二 进 制 形式 出 现 的 相关 内 容 。 


。 在 Intel 80x86 内 存 模 型 中 ， 段 是 内 存 模型 设计 的 结果 。 在 80x86 的 内 存 模 型 
中 ， 各 处 理 器 的 地 址 空间 并 不 一 致 〈 因 为 要 保持 兼容 性 ) ， 但 它们 都 被 分 割 
成 以 64KB 为 单位 的 区 域 ， 每 个 这 样 的 区 域 便 称 为 段 。 


作为 80x86 内 存 模型 最 基本 的 形式 ，8086 中 的 段 是 一 块 64KB 的 内 存 区 域 ， 由 
一 个 段 寄 存 器 所 指向 。 内 存 地 址 的 形成 经 过 是 : 取得 段 寄 存 器 的 值 ， 左 移 4 位 
《相当 于 乘 上 16) ;或 者 换 种 思路 ， 把 段 寄存 器 的 值 看 成 是 20 位 的 ， 也 就 是 在 值 
的 右边 扩充 4 个 0。 


然后 就 是 16 位 的 偏 移 地 址 ， 它 表示 段 内 的 地 址 。 如 果 把 段 寄存 器 的 值 〈 经 过 
移 位 ) 加 上 偏 移 地 址 ， 就 得 到 最 终 的 地 址 。 注 意 ， 正 如 两 个 数 加 起 来 等 于 24 的 例 
子 有 很 多 那样 ， 不 同 的 段 地 址 加 上 偏 移 地 址 所 形成 的 值 可 能 指向 同一 个 内 存 地 
es 


小 局 发 


不 同 的 段 地 址 和 偏 移 地 址 形成 的 指针 可 能 指向 同一 个 内 存 地 址 


Intel 8086 处 理 占 的 内 存 地 址 是 通过 组 合 16 位 的 段 地 址 和 16 位 的 偏 移 地 址 形成 


的 。 在 加 上 偏 移 地 址 之 前 ， 段 地 址 要 左 移 4 位 。 这 就 意味 着 许多 不 同 的 段 地址/ 偏 
移 地 址 组 合 可 能 指向 同一 个 内 存 地 址 。 


段 地 址 ( 左 移 4 位 后 ) 偏 移 地 址 最 终 地 址 
A0000 + FFFF = AFFFF 
AFFFO0 + O00F = AFFFF 


一 般 来 说 ， 大 约 有 0x1000 “(4096) 个 不 同 的 段 地 址 / 偏 移 地 址 组 合 可 以 指 问 同 
一 个 内 存 地 址 。 


C 语 言 编译 器 设计 者 必须 确定 ， 在 PC 中 这 些 指针 是 以 规范 的 方式 进行 比较 
的 。 人 否则 的 话 ， 可 能 会 出 现 两 个 位 模式 不 同 但 指向 同一 个 内 存 地 址 的 指针 被 错误 
地 比较 为 不 相等 。 如 果 使 用 了 huge 关 键 字 《使 用 huge 内 存 模式 ) ， 这 些 工 作 会 自 
动 完成 ， 但 如 果 使 用 了 large 模 式 ， 则 不 会 如 此 。 在 Microsoft C 中 ，far 关 键 字 表示 
间 针 存储 了 段 寄存 器 的 内 容 和 偏 移 地 址 。near 关 键 字 表示 指针 只 存储 16 位 的 偏 移 
地 址 ， 它 的 段 地 址 使 用 当前 数据 段 或 堆栈 段 寄 存 器 中 的 值 。 


小 启发 
内 存 容 量 单 位 一 览 


单位 2 的 乘 方 数 含义 


Kilo 210 1000 字 
大 1024 
Mega 2 100 万 字 
节 1048576 
Giga 2 10 亿 字 节 
1073741824 
Tera D40 和 于 亿 学 洱 
1099511627776 
Bubba 264 1800 亿 亿 字 节 
18446744073709551616 


在 讨论 数字 概念 时 ， 需 要 注意 所 有 的 磁盘 制造 商都 是 使 用 十 进 制 数 〈 而 不 是 
二 进 制 数 ) 来 表示 磁盘 的 容量 。 所 以 2GB 的 磁盘 可 以 存储 2000000000 字 节 的 数 
据 ， 而 不 是 2147483648 字 节 。 


64 位 的 地 址 是 非常 巨大 的 ， 它 可 以 把 整 部 用 高 清晰 度 电视 播放 的 影片 都 存放 
在 内 存 中 。 对 于 高 清晰 度 电 视 尚 无 明确 的 定义 ， 但 大 致 相当 于 SVGA 中 1024x768 
像素 的 分 辨 率 ， 其 中 每 个 像素 需要 3 字 节 的 色彩 信息 。 


按 每 秒 钟 显示 30 帧 (目前 NTSC 的 标准 ) 计算 ， 一 部 长 度 为 两 个 小 时 的 影片 
将 占据 : 


120 分 钟 x60 秒 x30 帧 x786432 像 素 x3 色 彩 字 节 


= 509607936000 字 节 
=500GB 的 内 存 


你 可 以 在 64 位 的 虚拟 内 存 地 址 空间 中 存放 不 止 一 部 ， 而 是 3600 万 部 高 清晰 度 
电视 影片 〈 这 个 数目 大 大 超出 了 目前 已 生产 的 所 有 影片 的 总 和 ) 。 你 还 需要 为 操 
作 系 统 留 出 空间 ， 不 过 没 问 题 ， 当 前 SVIDDI 所 限定 的 UNIX 内 核 不 过 是 512MB。 
当然 ， 你 还 需要 解决 一 个 问题 ， 就 是 找到 足够 大 的 物理 磁盘 来 备份 这 个 巨 量 的 虚 
拟 内 存 。 


今天 ， 计 算 机 系统 结构 的 真正 挑战 不 在 于 内 存 的 容量 ， 而 是 内 存 的 速度 。 如 
果 你 的 软件 实际 上 受到 磁盘 和 内 存 的 等 待 时 间 《〈 访 问 时 间 ) 的 限制 ， 那 么 即使 是 
光彩 夺目 的 Pentium 芯 片 也 没有 用 武之 地 。 准 确 地 说 ， 在 内 存 和 CPU 的 性 能 之 间 存 
在 一 道 很 深 的 鸿沟 ， 而 且 是 越 来 越 深 。 在 过 去 的 10 年 里 ， 每 隔 一 年 半 至 两 年 ， 
CPU 的 速度 就 会 提升 一 倍 。 在 相同 的 时 间 内 ， 内 存 的 容量 倒是 扩大 了 一 倍 《〈 从 
64KB 增 加 到 128KB) ， 但 它 的 访问 时 间 只 提高 了 10%。 在 巨型 地 址 空间 的 机 器 
中 ， 主 存 访问 时 间 的 重要 性 将 进一步 凸显 。 当 访问 海量 数据 时 ， 它 所 耗费 的 内 存 
访问 时 间 将 左右 软件 的 性 能 。 我 们 只 能 寄 望 未 来 能 看 到 cache 以 及 相关 技术 的 更 广 
泛 使 用 。 


小 启发 


MS -DOS 640KB 的 限制 缘何 而 来 


在 MS-DOS 下 运行 的 应 用 程序 都 面临 一 个 严峻 的 内 存 限制 ， 那 就 是 可 用 内 存 
只 有 640KB。 这 个 限制 源 于 Intel 8086 这 个 最 初 的 DOS 机 器 的 最 大 地 址 范围 。8086 


支持 20 位 的 地 址 ， 总 共 是 1MB 的 内 存 。 之 所 以 只 能 使 用 640KB， 是 因为 某 些 段 
(每 个 64KB ) 必须 予以 保留 ， 供 系统 所 用 : 


段 保留 用 于 

F0000~FFFF 64KB， 用 于 永久 性 的 ROM 区 域 BIOS、 诊 断 信息 等 
D0O000~EFFF 128KB， 用 于 ROM 存 储 区 域 

CO0000~CFFF 64KB， 用 于 BIOS 扩 展 (XT 人 硬盘) 

B0000~BFFF 64KB， 用 于 常规 性 的 内 存 显示 

A0000~AFFF 64KB， 用 于 显示 内 存 扩展 

其 余 

00000~9FFFF 640KB， 用 于 应 用 程序 


billion 和 trillion 在 美语 和 英语 中 的 含义 是 不 同 的 。 在 美语 中 ， 它 们 分 别 是 10 亿 
(102) 和 1 万 亿 〈102) 。 在 英语 中 ， 它 们 代表 的 数目 要 大 得 多 ， 分 别 是 1 万 亿 
《102)》 和 100 亿 亿 “(10 ) 。 我 们 更 倾向 美式 用 法 ， 因 为 数量 级 的 增长 从 干 
(103) 到 百 万 《106) ， 再 到 10 亿 〈10?) 和 1 万 亿 〈101) 比较 有 连贯 性 。 英 国 的 

billionarie〈 亿 万 富 兮 ) 比 美国 的 billionarie 要 富有 得 多 一 一 除非 两 国货 币 汇 率 变 成 
1000 英 镑 部 换 1 美 元 。 


MS-DOS 的 640KB 内 存 限制 源 于 8086 芯 片 总 共 1MB 的 地 址 空间 。MS-DOS 把 
整整 6 个 段 留 给 自己 使 用 ， 只 留 下 10 个 64KB 的 段 归 应 用 程序 使 用 ， 起 始 地 址 为 
0《〈 其 中 第 0 块 的 最 低地 址 也 保留 给 系统 使 用 ， 用 作 缓 冲 区 和 MS-DOS 的 工作 存 
储 ) 。 正 如 Bill Gates 在 1981 年 所 说 的 那样 ，“640KB 内 存 对 于 所 有 人 来 说 都 已 足够 


了 >”。 当 PC 刚刚 出 现 的 时 候 ，640KB 内 存 听 上 去 像 是 一 个 天 文 数字 。 事 实 上， 最 
早 的 PC 把 16KB RAM 作 为 标准 配置 。 


小 启发 
PC 的 内 存 模型 


Microsoft C 认 可 以 下 几 种 内 存 模型 。 


small: 所 有 的 指针 都 为 1 位， 代码 和 数据 都 限定 在 一 个 单一 的 段 中 ， 程 序 最 
大 规模 为 128KB (代码 段 和 数据 段 各 64KB ) 。 


large: 所 有 的 指针 都 为 32 位 ， 程 序 可 以 包含 许多 个 64KB 的 段 。 


medium: 函数 指针 为 32 位 ， 所 以 代码 段 可 能 有 多 个 。 数 据 指针 为 1 位， 所 以 
只 有 一 个 64KB 的 数据 段 。 


compact: medium 的 另 一 种 形式 。 函 数 指针 为 1 位 ， 所 以 代码 最 多 不 超过 
64KB。 数 据 指针 为 32 位 ， 所 以 数据 可 以 占据 多 个 段 ， 但 堆栈 里 的 数据 仍 限 制 在 一 
个 64KB 的 段 内 。 


Microsoft C 认 可 下 面 这 些 非 标准 的 关键 字 ， 当 它们 应 用 于 对 象 指 针 或 函数 指 
针 时 ， 只 窗 盖 相应 类 型 的 指针 。 


”near: 16 位 指针 。 


__far: 32 位 指针 ， 但 它 所 指向 的 对 象 必须 全 部 位 于 同一 个 段 中 (所 有 的 对 象 
均 不 得 超过 64KB) 。 也 就 是 说 ,一旦 载 入 段 寄存 器 后 ， 你 就 可 以 取得 段 内 所 有 对 


象 的 地 址 。 
__huge: 32 位 指针 ， 上 述 所 有 对 段 的 限制 都 不 存在 。 


例 : char _ _huge * bananal 


注意 这 些 关 键 字 所 修改 的 是 它们 右边 紧邻 的 项 目 。 与 之 相反 的 是 ，const 和 
volatile 类 型 修饰 符 所 修改 的 是 它们 左边 紧邻 的 项 目 。 


在 缺 省 设置 之 外 ， 你 总 是 可 以 在 任何 模式 下 自行 显 式 地 声明 near、far 和 huge 
旨 针 。huge 指 针 始 终 会 按照 它 的 规范 中 形式 的 值 进 行 比 较 和 指针 运算 。 在 规范 形 
式 下 ， 指 针 的 偏 移 地 址 的 范围 是 0 一 15。 如 果 两 个 指针 都 是 规范 形式 的 ， 那 么 以 
unsigned long 为 类 型 进行 的 比较 将 会 得 到 正确 的 结果 。 


如 果 让 数组 和 结构 的 大 小 、 指 针 的 大 小 、 内 存 模型 以 及 80x86 的 硬件 操作 模 
型 在 程序 中 以 多 种 形式 存在 且 相 互 影响 ， 就 会 给 编译 带 来 很 大 的 困难 ， 并 容易 产 
生 错 误 。 


随 着 电子 表格 和 字 处 理 软件 逐渐 显示 出 它们 的 强大 功能 ， 计 算 机 对 内 存 的 需 
求 也 越 来 越 高 。 人 们 投入 了 巨大 的 精力 来 处 理 IBM PC 上 受 限 制 的 地 址 空间 ， 提 出 
了 各 种 各 样 的 内 存 扩展 方案 (expander) 和 内 存 扩充 方案 (extender) ， 但 还 没有 
找到 一 个 令 人 满意 的 可 移植 的 解决 方案 。MS-DOS 从 本 质 上 说 是 一 种 移植 到 8086 
上 的 CPM， 它 所 有 的 后 续 版 本 都 维持 了 与 最 初版 本 的 兼容 性 。 这 就 是 为 什么 DOS 
6.0 仍 然 是 一 个 单 任务 系统 并 依然 使 用 80x86 的 “实地 址 ”(real-address， 与 8086 兼 
容 ) 模型 ， 从 而 仍然 保持 对 用 户 程序 地 址 空间 的 限制 。8086 内 存 模型 还 存在 另外 
一 些 人 们 不 希望 出 现 的 效果 。 每 一 个 运行 于 MS-DOS 的 程序 都 拥有 不 受 限 制 的 特 
权 ， 这 样 便 很 容易 受到 病毒 软件 的 攻击 。 如 果 MS-DOS 使 用 了 从 80286 起 内 置 于 所 
有 Intel 处 理 器 的 内 存 和 任务 保护 硬件 ，PC 病 毒 或 许 根本 不 会 出 现 。 


7.3 ”虚拟 内 存 


如 果 它 存在 ， 而 且 你 能 看 见 它 一 一 它 是 真实 的 《real) 


如 果 它 不 存在 ， 但 你 能 看 见 它 一 一 它 是 虚拟 的 《virtual) 


如 果 它 存在 ， 但 你 看 不 见 它 一 一 它 是 透明 的 (transparent) 


如 果 它 不 存在 ， 而 且 你 也 看 不 见 它 一 一 那 肯定 是 你 把 它 擦 掉 了 。 


一 一 IBM 用 于 解释 虚拟 内 存 的 张贴 夯 ， 大 约 是 在 1978 年 


和 MS-DOS 一 样 ， 让 程序 受到 安装 在 机 器 上 的 物理 内 存 数量 的 限制 是 非常 不 
便 的 。 很 早 的 时 候 ， 在 计算 机 领域 中 人 们 就 提出 了 虚拟 内 存 的 概念 ， 目 的 就 是 为 
了 去 除 这 个 限制 。 它 的 基本 思路 是 用 廉价 但 缓慢 的 磁盘 来 扩充 快速 却 昂贵 的 内 
存 。 在 任 一 给 定时 刻 ， 程 序 实际 需要 使 用 的 虚拟 内 存 区 段 的 内 容 就 被 载 入 物理 内 
存 中 。 当 物理 内 存 中 的 数据 有 一 段 时 间 未 被 使 用 时 ， 它 们 就 可 能 被 转移 到 人 硬盘 
中 ， 节 省 下 来 的 物理 内 存 空间 用 于 载 入 需要 使 用 的 其 他 数据 。 所 有 现代 的 计算 机 
系统 ， 从 最 大 的 超级 计算 机 到 最 小 的 工作 站 ， 除 了 PC 只 之 外 ， 都 使 用 了 虚拟 内 
存 。 


在 计算 机 领域 的 早期 ， 把 未 使 用 的 部 分 数据 从 内 存 转移 到 磁盘 的 任务 是 由 程 
序 员 手 工 完 成 的 ， 感 觉 就 像 一 粒 粒 剥 谷 成 米 一 般 。 程 序 员 必须 花费 极 大 的 精力 妃 
踪 任 一 时 刻 哪 些 数据 是 在 物理 内 存 中 ， 并 根据 需要 在 段 之 间 来 回 切换 。 老 式 的 语 
言 《 如 COBOL ) 仍然 包含 了 大 量 的 特性 ， 用 于 操作 这 种 内 存 履 辣 。 这 种 方法 实在 
是 太 过 时 了 ， 它 对 于 当代 的 程序 员 而 言 根本 不 具备 可 操作 性 。 


多 层 存 储 是 一 个 类 似 的 概念 ， 我 们 可 以 在 一 台 计 算 机 中 到 处 看 到 它 的 存在 
(如 在 寄存 器 和 主 存 中 ) 。 从 理论 上 说 ， 内 存 的 每 个 位 置 都 可 以 用 寄存 器 来 代 
丛 ， 但 在 实际 上 上， 这样 做 的 成 本 将 是 相当 昂贵 且 不 切实 际 的 ， 所 以 必须 牺牲 一 些 


访问 速度 来 大 幅 降低 存储 系统 的 实现 成 本 。 虚 拟 内 存 只 是 对 多 层 存 储 进 行 扩充 ， 
使 用 磁盘 而 不 是 主 存 来 保存 运行 进程 的 映像 ， 所 以 说 它们 实际 上 是 同一 种 策略 。 


小 启发 


内 存 媒 介 的 速度 与 成 本 关系 


人 


ES: 


cache 存 储 器 
mt 


成 计量 EL 


练习 : 根据 你 所 熟 悉 的 系统 ， 填 入 典型 的 访问 时 间 、 成 本 、 容 量 的 实际 数 


每 位 成 本 ($) : JE RS 


访问 时 间 : 


最 大 容 


和 


SunOS 中 的 进程 执行 于 32 位 地 址 空间 。 操 作 系统 负责 具体 细节 ， 使 每 个 进程 
都 以 为 自己 拥有 整个 地 址 空间 的 独家 访问 权 。 这 个 幻觉 是 通过 “虚拟 内 存 ” 实 现 
的 。 所 有 进程 共享 机 器 的 物理 内 存 ， 当 内 存 用 完 时 就 用 磁盘 保存 数据 。 在 进程 运 
行 时 ， 数 据 在 磁盘 和 内 存 之 间 来 回 移动 。 内 存 管理 硬件 负责 把 虚拟 地 址 翻译 为 物 
理 地 址 ， 并 让 一 个 进程 始终 运行 于 系统 的 真正 内 存 中 。 应 用 程序 程序 员 只 看 到 虚 
拟 地 址 ， 并 不 知道 自己 的 进程 在 磁盘 和 内 存 之 间 来 回 切换 ， 除 非 他 们 观察 运行 时 
间或 者 查看 诸如 ps 之 类 的 系统 命令 。 图 7-3 显 示 了 有 关 虚 拟 内 存 的 一 些 基 础 知识 。 


物理 磁盘 
( 几 GB) 
4GB 
物理 地 址 | 
进程 虚拟 
地 址 空间 / 


( 虚拟 地 址 物理 地 址 》 
人 / 物理 内 存 
\ (MMU 物理 内 存 
系统 中 的 每 | ( 几 十 MB) 


个 进程 都 有 
自己 的 地 址 
空间 


图 7-3 ”虚拟 内 存 基 础 知识 


虚拟 内 存 通过 页 的 形式 组 织 。 页 就 是 操作 系统 在 磁盘 和 内 存 之 间 移 来 移 去 或 
进行 保护 的 单位 ， 一 般 为 几 KB。 可 以 通过 输入 /usr/ucb/pagesize 来 观察 你 的 系统 中 
的 页 面 大 小 。 当 内 存 的 映像 在 磁盘 和 物理 内 存 间 来 回 移 动 时 ， 称 它们 是 page 
in 〈 移 入 内 存 ) 或 page out( 移 到 磁盘 〉。 


从 潜在 的 可 能 性 上 说 ， 与 进程 有 关 的 所 有 内 存 都 将 被 系统 所 使 用 。 如 果 该 进 
程 可 能 不 会 号 上 运行 (比如 它 的 优先 级 低 ， 也 可 能 是 它 处 于 睡眠 状态 )， 操 作 系 
统 可 以 暂时 取 回 所 有 分 配给 它 的 物理 内 存 资源 ， 将 该 进程 的 所 有 相关 信息 都 备份 
到 磁盘 上 。 这 样 ， 这 个 进程 就 被 “ 换 出 ”。 在 磁盘 中 有 一 个 特殊 的 “交换 区 ”， 用 于 


保存 从 内 存 中 换 出 的 进程 。 在 一 台 机 器 中 ， 交 换 区 的 大 小 一 般 是 物理 内 存 的 几 
倍 。 只 有 用 户 进程 才 会 被 换 进 换 出 ，SunOS 内 核 常 驻 于 内 存 中 。 


ee 当 进 程 引用 一 个 不 在 物理 内 存 中 的 页 
面 时 ， 内 存 管理 单元 C(MMU ) 就 会 产生 一 个 页 错误 。 内 核对 此 事件 作出 啊 应 ， 
并 判断 该 引用 是 否 有 效 。 如 果 无 效 ， ee. ws 个 “segmentation 
violation”《〈 段 违规 ) 的 信号 。 如 果 有 效 ， 内 核 从 磁盘 取 回 该 页 ， 换 入 到 内 存 中 。 
一 旦 页面 进 入 内 存 ， 进 程 便 被 解锁 ， 可 以 重新 运行 一 一 进程 本 身 并 不 知道 它 曾 经 
因为 页 面 换 入 事件 等 待 了 一 会 儿 。 


SunOS 对 于 磁盘 的 文件 系统 和 主 存 有 一 种 统一 的 观点 。 操 作 系 统 使 用 相同 的 
底层 数据 结构 (vnode， 或 称 为 “虚拟 节点 ”) 来 操纵 这 两 者 。 所 有 的 虚拟 内 存 操作 
都 出 于 同样 的 设计 哲学 ， 就 是 把 文件 区 域 映 射 到 内 存 区 域 中 。 这 可 以 提高 性 能 ， 
并 允许 可 观 的 代码 复 用 。 你 可 能 听 说 过 “hat layer”( 帽 子 层 ) 一 一 就 是 驱动 MMU 
的 “硬件 地 址 翻译 ”软件 。 它 极度 依赖 硬件 ， 每 出 现 一 个 新 的 计算 机 架构 ， 它 都 必 
须 重 新 改写 。 


虚拟 内 存 现 已 成 为 操作 系统 中 一 项 不 可 或 缺 的 技术 ， 它 允许 多 个 进程 运行 于 
较 小 的 物理 内 存 中 。 本 章 的 “轻松 一 下 ”栏目 对 虚拟 内 存 有 一 个 额外 的 描述 ， 是 以 
离 言 的 形式 出 现 ， 非 常 经 典 。 


编程 挑战 
你 可 以 分 配 多 大 的 内 存 


运行 下 列 程序 ， 看 看 在 你 的 进程 中 可 以 分 配 多 大 的 内 存 。 


#include <stdio.h> 
#include <std1lib.h> 
main() 


{ 


int MB = @; 
while(malloc(1 << 26)) ++MB; 
printf("Allocated %d MB total\n", MB); 


忆 共 分 配 的 内 存量 取决 于 交换 区 和 你 的 系统 配置 中 的 进程 限制 。 如 果 请 求 分 
配 的 内 存 块 小 于 IMB， 你 实际 得 到 的 内 存 是 否 比 这 要 多 一 些 ? 为 什么 ? 


为 了 让 这 个 程序 能 够 在 有 内 存 限制 的 MS-DOS 上 运行 ， 把 每 次 分 配 的 单元 从 
1MB 改 为 1KB 就 是 把 1<<20 改 为 1<<10， 并 用 KB 代 蔡 MB) 。 


7.4 ” cache 存储 器 


cache 存 储 器 是 多 层 存储 概念 的 更 深 扩展 。 它 的 特点 是 容量 小 、 价 格 高 、 速 度 
快 。cache 位 于 CPU 和 内 存 之 间 ， 是 一 种 极 快 的 存储 缓冲 区 。 从 内 存 管理 单元 
(MMU) 的 角度 看 ， 有 些 机 器 的 cache 是 属于 CPU 一 侧 的 ， 比 如 Sun 的 
SPARCstation 2 中 即 是 如 此 。 在 这 种 情况 下 ，cache 使 用 的 是 虚拟 地 址 ， 在 每 次 进 
程 切换 时 ， 它 的 内 容 必须 进行 刷新 〈 如 图 7-4 所 示 ) 。 也 有 一 些 机 器 的 cache 从 
MMU 的 角度 看 是 属于 物理 内 存 一 侧 的， 比如 SPARCstation 10 即 是 如 此 。 在 这 种 
情况 下 ，cache 使 用 的 是 物理 地 址 ， 这 就 容易 使 多 处 理 器 CPU 共享 同一 个 cache。 


虚拟 地 址 cache 存 储 器 
内 存 管理 单元 物理 


7-4” ”cache 存储 器 的 基本 知识 


所 有 的 现代 处 理 占 都 使 用 了 cache 存 储 器 。 当 数据 从 内 存 读 入 时 ， 整 行 (一般 
16 字 节 或 32 字 节 ) 的 数据 被 装 入 cache。 如 果 程 序 具 有 良好 的 地 址 引用 局 部 性 
《如 ， 它 顺序 浏览 一 个 字符 串 ) ， 那 么 CPU 以 后 对 邻近 数据 的 引用 就 可 以 从 快速 
的 cache 读 取 ， 而 不 用 从 绥 慢 的 内 存 中 读 取 。cache 操 作 的 速度 与 系统 的 周期 时 间 
相同 ， 所 以 一 个 50MHz 的 处 理 器 ， 其 cache 的 存 取 周 期 为 20ns。 在 典型 情况 下 ， 主 
存 的 存 取 速度 可 能 只 有 它 的 1/4! 与 常规 的 内 存 相 比 ，cache 要 贵 得 多 ， 单 位 体积 
更 大 ， 消 耗 的 能 量 也 更 多 。 所 以 ， 在 系统 中 我 们 把 它 作为 存储 系统 的 附加 部 分 ， 


而 不 是 把 它 作 为 唯一 的 存储 形式 。 


cache 包 含 一 个 地 址 的 列表 以 及 它们 的 内 容 。 随 着 处 理 嚣 不断 引用 新 的 内 存 地 
址 ，cache 的 地 址 列表 也 一 直 处 于 变化 中 。 所 有 对 内 存 的 读 取 和 写 入 操作 都 要 经 过 
cache。 当 处 理 器 需要 从 一 个 特定 的 地 址 提取 数据 时 ， 这 个 请 求 首先 递交 给 
cache。 如 果 数 据 已 经 存在 于 cache 中 ， 它 就 可 以 立即 被 提取 。 否 则 ，cache 同 内 存 
传递 这 个 请 求 ， 于 是 就 要 进行 较 缓慢 的 内 存 访 问 操作 。 内 存 读 取 的 数据 以 行为 单 
位 ， 在 读 取 的 同时 也 装 入 cache 中 。 


如 果 你 的 程序 的 行为 颇 为 怪异 ， 每 次 都 无 法 命中 cache， 那 么 ， 程 序 的 性 能 比 
不 采用 cache 还 要 差 。 原 因 是 每 次 判断 cache 是 否 命中 的 额外 逻辑 并 不 是 免费 的 午 
餐 。 


Sun 当 前 使 用 两 种 类 型 的 cache。 


。 全 写法 (write-through ) cache 一 一 每 次 写 入 cache 时 总 是 同时 写 入 到 内 存 中 ， 
使 内 存 和 cache 始 终 保持 一 致 。 

写 回 法 (write-back〉cache 一 一 当 第 一 次 写 入 时 ， 只 对 cache 进 行 写 入 。 如 果 
已 经 写 入 过 的 cache 行 再 次 需要 写 入 时 ， 此 时 第 一 次 写 入 的 结果 尚未 保存 ， 所 
以 要 先 把 它 写 入 到 内 存 中 。 当 内 核 切 换 进 程 时 ，cache 中 的 所 有 数据 也 都 要 先 
写 入 到 内 存 中 。 


在 两 种 情况 下 ， 一 旦 对 cache 的 访问 结束 ， 指 令 流 都 将 继续 执行 ， 不 用 等 待 绥 
慢 的 内 存 操作 全 部 完成 。 


SPARCstation 2 拥有 64KB 的 全 写法 cache， 每 一 行 是 32B。 比 这 个 大 得 多 的 
cache 也 越 来 越 常见 SPARCserver 1000 拥 有 1MB 的 写 回 法 cache。 如 果 处 理 器 使 
用 内 存 映 射 (memory- mapped) 的 IO， 可 能 会 出 现 供 MO 总 线 使 用 的 cache， 而 且 
现在 经 常 出 现 分 离 的 指令 cache 和 数据 cache。 事 实 上 还 可 能 出 现 多 层 的 cache， 而 
且 cache 可 以 出 现在 任何 存在 快速 / 慢 速 设备 的 接口 上 《如 磁盘 和 内 存 ) 。PC 经 常 
使 用 由 主 存 构 成 的 cache 来 提高 速度 较 慢 的 磁盘 的 存 取 速 度 ， 称 为 RAMdisk。 在 


UNIX 中 ， 内 存 就 是 磁盘 inode 的 cache。 因 此 切断 机 器 电源 前 如 果 不 使 用 sync 命 令 
把 cache〈 内 存 ) 的 内 容 刷 新 到 磁盘 中 ， 文 件 系统 就 有 可 能 损坏 。 


对 于 编写 应 用 程序 的 程序 员 而 言 ，cache 和 虚拟 内 存 都 是 透明 的 ， 但 知道 它们 
所 能 提供 的 好 处 以 及 它们 可 以 显著 影响 系统 性 能 的 行为 是 非常 重要 的 。 


表 7-1 所 示 为 cache 的 组 成 。 


表 7-1 _ cache 的 组 成 


术 语 定义 
行 行 就 是 对 cache 进 行 访问 的 单位 。 每 行 由 两 部 分 组 成 : 一 个 数据 部 分 以 及 一 个 标 
(ine) | 签 。 标 签 用 于 指定 它 所 代表 的 地 址 


一 个 cache 行 内 的 数据 被 称 作 块 。 块 保存 来 回 移 动 于 cache 行 和 内 存 之 间 的 字 节 数 
据 。 一 个 典型 的 块 为 32B 一 个 cache 行 的 内 容 代表 特定 的 内 存 块 ， 如 果 处 理 器 试图 
访问 属于 该 块 地 址 范围 的 内 存 ， 它 就 会 作出 反应 ， 速 度 自然 要 比 访问 内 存 快 得 多 
在 计算 机 行业 中 ， 对 绝 大 多 数 人 而 言 ,“ 抉 ?和 * 行 ”的 概念 分 得 并 不 特别 清 ， 两 者 常 
常 可 以 交换 使 用 


块 
(block) 


一 个 cache (一 般 为 64KB~1MB， 也 可 能 更 多 〉 由 许多 行 组 成 。 有 时 也 使 用 相关 的 
cache 硬件 来 加 速 对 标签 的 访问 。 为 了 提高 速度 ，cache 的 位 置 离 CPU 很 近 ， 而 且 内 存 系 
统 和 总 线 经 过 高 度 优化 ， 以 尽 可 能 地 提高 大 小 等 于 cache 块 的 数据 块 的 移动 速度 


小 局 发 


体验 cache 


运行 下 面 的 程序 ， 看 看 在 你 的 系统 上 是 否 能 够 检测 到 cache 的 效果 。 


#define DUMBCOPY for(i = 6;j i < 65536; i++) \ 
destination[i] = source[i] 


#define SMARTCOPY memcpy(destination, source, 65536) 


main() 
{ 
char source[65536], destination[65536]; 
int i, j; 
for(j = 6; j < 166; j++) 
SMARTCOPY ; 
} 


% cc -0 cache.c 

% time a.out 

1.6 seconds user time 

# 改 为 DUMBCOPY， 并 重新 编译 
% time a.out 

7.6 seconds user time 


采用 两 种 方式 编译 并 记录 上 面 程序 的 运行 时 间 。 第 一 种 就 是 上 面 的 程序 ， 
二 种 就 是 用 DUMBCOPY 宏 伏 换 上 面 程序 中 的 SMARTCOPY 宏 。 我 是 在 
SPARCstation 2 上 运行 这 个 程序 的 ， 使 用 笨 找 贝 (dump copy) 的 程序 的 性 能 有 显 
著 的 下 降 。 


之 所 以 出 现 性 能 下 降 ， 是 因为 source 和 destination 的 大 小 正好 都 是 cache 容 量 的 
整数 倍 。SS2 上 的 cache 行 并 不 是 按 顺 序 填充 的 一 一 它 使 用 了 一 种 特别 的 算法 ， 填 
充 于 同一 cache 行 的 主 存 地 址 恰好 都 是 该 cache 行 大 小 的 整数 倍 。 这 是 由 于 对 标签 
存储 的 优化 所 引起 的 一 一 在 这 种 设计 方法 中 ， 只 有 地 址 的 高 位 才 被 放 入 标签 中 。 

这 样 一 来 ，source 和 destination 便 不 可 能 同时 出 现在 cache 中 ， 于 是 导致 了 性 能 的 显 
著 下 降 。 


所 有 使 用 cache 的 机 器 (包括 超级 计算 机 、 现 代 的 PC 以 及 定位 在 它们 之 间 的 
各 种 机 器 ) 在 性 能 上 都 会 受到 类 似 这 种 变态 情况 的 严重 影响 。 程 序 的 运行 时 间 将 


因 不 同 的 机 器 和 不 同 的 cache 实 现 方案 而 异 。 


在 这 个 source 和 destination 都 使 用 同一 cache 行 的 特殊 情况 下 ， 会 导致 每 次 对 内 
存 的 引用 都 无 法 命中 cache， 使 CPU 的 利用 率 大 大 降低 ， 因 为 它 不 得 不 等 待 常 规 的 
内 存 操 作 完 成 。 库 函数 memcpy0 经 过 特别 优化 以 提高 性 能 。 它 把 先 读 取 一 个 cache 
行 再 对 它 进行 写 入 这 个 循环 分 解 开 来 ， 这 就 避免 了 上 述 问 题 。 使 用 聪明 拷贝 
(smart copy) 可 以 大 幅度 地 提高 性 能 。 这 也 显示 了 仅仅 根据 思维 单一 的 基准 
(benchmak) 程序 就 得 出 机 器 性 能 的 结论 是 多 么 地 思春 。 


7.5 数据 段 和 扒 


我 们 已 经 讨论 了 跟 系 统 相 关 的 内 存 话题 的 背景 信息 ， 现 在 是 回顾 每 个 进程 内 
部 的 内 存 布局 的 时 候 了 。 既 然 你 已 经 知道 了 跟 系统 有 关 的 话题 ， 再 讨论 与 进程 有 
关 的 话题 会 更 容易 一 些 ， 尤 其 是 我 们 将 从 仔细 观察 进程 内 部 的 数据 段 开 始 。 


就 像 堆栈 段 能 够 根据 需要 自动 增长 一 样 ， 数 据 段 也 包含 了 一 个 对 象 ， 用 于 完 
成 这 项 工作 ， 这 就 是 堆 Cheap) 。 图 7-5 显 示 了 这 一 点 。 堆 区 域 用 于 动态 分 配 的 存 
储 ， 也 就 是 通过 malloc《〈 内 存 分 配 ) 函数 获得 并 通过 指针 访问 的 内 存 。 堆 中 的 所 
有 东西 都 是 匿名 的 一 一 不 能 按 名 字 直 接 访问 ， 只 能 通过 指针 间接 访问 。 从 堆 中 获 
取 内 存 的 唯一 办 法 就 是 调用 malloc《〈 以 及 同类 的 calloc、realloc 等 ) 库 函 数 。calloc 
函数 与 nalloc 类 似 ， 但 它 在 返回 指针 之 前 先 把 分 配 好 的 内 存 的 内 容 都 清空 为 零 。 
不 要 以 为 calloc 函 数 中 的 c 跟 C 语 言 编程 有 关 一 一 它 的 意思 是 “分 配 清 零 后 的 内 存 ”。 
realloc 函 数 改变 一 个 指针 所 指向 的 内 存 块 的 大 小 ， 既 可 以 将 其 扩大 ， 也 可 以 把 它 
缩小 。 它 经 常 把 内 存 复制 到 别 的 地 方 然 后 将 指向 新 地 址 的 指针 返回 给 你 。 这 在 动 
态 增 长 表 的 大 小 时 很 有 用 一 一 第 10 音 将 对 此 作 更 多 的 讨论 。 


最 高 内 存 地 址 


堆栈 段 (函数 的 局 部 数据 ) 


空洞 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -一 中 —— break 


推 用 于 malloc() 


最 低 内 存 地 址 


图 7-5 ” 堆 的 位 置 


堆 内 存 的 回收 不 必 与 它 所 分 配 的 顺序 一 致 〈 它 甚至 可 以 不 回收 ) ， 所 以 无 序 
的 malloc/free 最 终 会 产生 扒 碎 片 。 堆 对 它 的 每 块 区 域 都 需要 密切 留心 ， 要 知道 哪 
些 是 已 经 分 配 了 的 ， 哪 些 是 尚未 分 配 的 。 其 中 一 种 策略 就 是 建立 一 个 可 用 块 《〈 自 
由 存储 区 ) 的 链表 ， 由 malloc 分 配 的 每 块 内 存 块 都 在 自己 的 前 面 标明 自己 的 大 
小 。 有 些 人 用 arena 这 个 术语 描述 由 内 存 分 配器 (memory allocator) 管理 的 内 存 块 
的 集合 〈 在 SunO0S 中 ， 就 是 从 当前 break 的 位 置 到 数据 段 结尾 之 间 的 区 域 ) 。 


被 分 配 的 内 存 总 是 需要 进行 对 齐 ， 以 适合 机 器 上 最 大 尺寸 的 原子 访问 。 为 方 
便 起 见 ， 一 个 malloc 请 求 申请 的 内 存 大 小 一 般 被 取 整 为 2 的 乘 方 。 回 收 的 内 存 可 供 
重新 使 用 ， 但 并 没有 【方便 的 ) 办 法 把 它 从 你 的 进程 移出 交还 给 操作 系统 。 


堆 的 末端 由 一 个 称 为 break 中 的 指针 来 标识 。 当 堆 管 理 器 需要 更 多 内 存 时 ， 可 


以 通过 系统 调用 brk 和 sbrk 来 移动 break 指 针 。 一 般 情况 下 ， 不 必 由 自 己 显 式 地 调用 
brk， 如 果 分 配 的 内 存 容量 很 大 ，brk 最 终 会 被 自动 调用 。 用 于 管理 内 存 的 调用 


日 
AE: 


从 堆 中 获得 内 存 以 及 把 内 存 返 回 给 堆 ; 


e malloc 和 free 


。 brk 和 sbrk 一 一 调整 数据 段 的 大 小 至 一 个 绝对 值 〈 通 过 某 个 增 量 ) 。 


警告 ， 你 的 程序 可 能 无 法 同时 调用 mallocO 和 brk()。 如 果 你 使 用 malloc， 那 么 
malloc 锅 望 当 你 调用 brk 和 sbrk 时 ， 它 具有 唯一 的 控制 权 。 由 于 sbtk 向 进程 提供 了 
唯一 的 方法 将 数据 段 内 存 返回 给 系统 内 核 ， 所 以 如 果 使 用 了 malloc， 就 有 效 地 防 
止 了 程序 的 数据 段 缩小 的 可 能 性 。 要 想 获 得 以 后 能 够 返回 给 系统 内 核 的 内 存 ， 可 
以 使 用 mmap 系 统 调用 来 映射 /dev/zero 文 件 。 需 要 返回 这 种 内 存 时 ， 可 以 使 用 
munmap 系 统 调用 。 


7.6 ”内 存 泄漏 


有 些 程序 并 不 需要 管理 它们 的 动态 内 存 的 使 用 。 当 需要 内 存 时 ， 它 们 简单 地 
通过 分 配 来 获得 ， 从 来 不 用 担心 如 何 释放 它 。 这 类 程序 包括 编译 器 和 其 他 一 些 运 
行 一 段 固定 的 《或 有 限 的 ) 时 间 然 后 终止 的 程序 。 当 这 种 类 型 的 程序 终止 时 ， 所 
有 内 存 会 被 自动 回收 。 细 心 查验 每 块 内 存 是 否 需要 回收 纯 属 浪费 时 间 ， 因 为 它们 
不 会 再 被 使 用 。 


其 他 程序 的 生存 时 间 要 长 一 点 。 有 些 工具 如 日 历 管理 器 、 邮 件 工 具 以 及 操作 
系统 本 身 经 常 需要 数 日 乃至 数 周 连续 运行 ， 并 需要 管理 动态 内 存 的 分 配 和 回收 。 
由 于 Ci 语言 通常 并 不 使 用 垃圾 收集 器 (自动 确认 并 回收 不 再 使 用 的 内 存 块 )， 这 
些 C 程 序 在 使 用 malloc() 和 free() 时 不 得 不 非常 慎重 。 堆 经 常会 出 现 两 种 类 型 的 问 


题 : 


。 释放 或 改写 仍 在 使 用 的 内 存 〈 称 为 "内存 损坏 ”) : 
。 未 释放 不 再 使 用 的 内 存 ( 称 为 “内 存 泄漏 ”)。 


这 些 是 最 难 被 调试 发 现 的 问题 。 如 果 每 次 已 分 配 的 内 存 块 不 再 使 用 而 程序 员 
并 不 释放 它们 ， 进 程 就 会 一 边 分 配 越 来 越 多 的 内 存 ， 一 边 却 并 不 释放 不 再 使 用 的 
那 部 分 内 存 。 
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避免 内 存 泄漏 


每 次 当 调 用 malloc 分 配 内 存 时 ， 注 意 在 以 后 要 调用 相应 的 free 来 释放 它 。 


如 果 不 知道 如 何 让 free 与 先前 的 malloc 相 对 应 ， 那 么 很 可 能 已 经 造成 了 内 存 泄 
漏 ! 


一 种 简单 的 方法 就 是 在 可 能 的 时 候 使 用 alloca0 来 分 配 动态 内 存 ， 以 避免 上 述 
情况 。 当 离开 调用 alloca 的 函数 时 ， 它 所 分 配 的 内 存 会 被 自动 释放 。 


显然 ， 这 并 不 适用 于 那些 比 创建 它们 的 函数 生命 期 更 长 的 结构 。 但 如 果 对 象 
的 生命 期 在 该 函数 结束 前 便 已 终止 ， 这 种 建立 在 堆栈 上 的 动态 内 存 分 配 是 一 种 开 
销 很 小 的 选择 。 有 些 人 不 提倡 使 用 alloca， 因 为 它 不 并 是 一 种 可 移植 的 方法 。 如 果 
处 理 吉 在 硬件 上 不 文 持 堆栈 ，alloca0 就 很 难 高 效 地 实现 。 


我 们 使 用 “内 存 泄漏 ”这 个 词 是 因为 一 种 稀有 的 资源 正 被 一 个 进程 榨 干 。 内 存 
泄漏 的 主要 可 见 症 状 就 是 罪魁 进程 的 速度 会 减 慢 。 原 因 是 体积 大 的 进程 更 有 可 能 
被 系统 换 出 ， 让 别 的 进程 运行 ， 而 且 大 的 进程 在 换 进 换 出 时 花费 的 时 间 也 更 多 。 
即使 (从 定义 上 说 ) 泄漏 的 内 存 本 身 并 不 被 引用 ， 但 它 仍 可 能 存在 于 页 面 中 《内 
容 自然 是 垃圾 ) ， 这 样 就 增加 了 进程 的 工作 页 数量 ， 降 低 了 性 能 。 另 外 需要 注意 
的 一 点 是 ， 泄 漏 的 内 存 往 往 比 态 记 释放 的 数据 结构 要 大 ， 因 为 malloc() 所 分 配 的 内 
存 通常 会 取 整 为 下 一 个 大 于 申请 数量 的 2 的 整数 次 方 ( 如 申请 212B， 就 会 向 上 取 
整 为 256B) 。 在 资源 有 限 的 情况 下 ， 即 使 引起 内 存 泄漏 的 进程 并 不 运行 ， 整 个 系 
统 的 运行 速度 也 会 被 拖 慢 。 从 理论 上 说 ， 进 程 的 大 小 有 一 个 上 限 值 ， 这 在 不 同 的 
操作 系统 中 各 不 相同 。 在 当前 的 SunOS 版 本 中 ， 进 程 的 最 大 地 址 空间 可 以 多 达 
4GB。 事 实 上 ， 在 进程 所 泄漏 的 内 存 远 未 达到 这 个 数量 时 ， 磁 盘 的 交换 区 早已 消 
耗 殖 尽 。 如 果 你 阅读 本 书 的 时 间距 现在 (1994 年 ) 超 过 5 年 ， 也 就 是 在 20 世 纪 末 
的 时 候 ， 你 可 能 会 对 这 个 早已 过 时 的 限制 忍 俊 不 已 {9。 


如 何 检 测 内 存 泄漏 


观察 内 存 泄漏 是 一 个 两 步骤 的 过 程 。 首 先 ， 使 用 swap 命 令 观 察 还 有 多 少 可 用 
的 交换 空间 : 


/usr/sbin/swap -s 


total: 17228k bytes allocated + 5396K reserved = 22624K used, 29548K available 


(共计 : 177228KB 已 分 配 +5396KB 用 于 保留 =22624KB 已 用 ，29548KB 可 
用 ) 


在 一 两 分 钟 内 输入 该 命令 三 到 四 次 ， 看 看 可 用 的 交换 区 是 否 在 减少 。 还 可 以 
使 用 其 他 一 些 /usr/bin/*stat 工 具 ， 如 netstat、vmstat 等 。 如 果 发 现 不 断 有 内 存 被 分 
配 且 从 不 释放 ， 一 个 可 能 的 解释 就 是 有 个 进程 出 现 了 内 存 泄 漏 。 
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聆听 网 络 的 心跳 : 同音 识 网 络 


在 所 有 的 网 络 检测 工具 中 ， 最 神奇 的 英 过 于 snoop 了 。 


snoop 是 SVr4 中 etherfind 的 蔡 代 品 ， 它 从 网 络 中 捕捉 分 组 (packet) ， 并 在 你 
的 工作 站 上 显示 。 你 可 以 告诉 snoop 只 把 精力 集中 于 一 至 两 台 机 器 ， 也 就 是 你 自己 
的 工作 站 和 服务 器 。 这 对 于 检测 连接 故障 非常 有 用 一 一 snoop 甚 至 可 以 告诉 你 字 节 
数据 正 从 你 的 机 器 中 发 出 。 


但 snoop 最 好 的 特性 就 是 它 的 -a 选 项 。 它 可 以 使 snoop 让 每 个 分 组 都 在 工作 站 
的 扬声器 中 输出 一 个 滴答 声 ， 你 可 以 聆听 网 络 的 以 太 交 通 。 不 同 的 分 组 长 度 具 有 


不 同 的 调幅 ， 如 果 你 习惯 于 使 用 snoop -a， 就 会 对 那些 特征 声音 了 如 指 掌 ， 可 以 
凭借 * 耳 杀 ?” 来 检测 并 优化 网 络 。 


第 二 个 步骤 就 是 确定 可 疑 的 进程 ， 看 看 它 是 不 是 该 为 内 存 泄漏 负责 。 你 可 
己 经 知道 哪个 进程 是 罪魁 祸首 ， 不 然 可 以 使 用 “ps -lu 用 户 名 ” 命 Wen 
的 大 小 ， 如 下 所 示 : 


F S UID PID PPID C PRI NI ADDR SZ WCHAN TTY TIME COMD 
8 S 5363 226 224 86 1 26 ff38f666 199 ff38f1d6 pts/3 6:61 csh 
8 0 5363 921 226 291 26 ff38c666 143 pts/3 6:66 ps 


标题 为 SZ 的 列 就 是 以 页 面 数 表示 的 进程 的 大 小 “如 果 你 真 的 想 知道 以 KB 表 
示 的 页 面 的 大 小 ， 可 以 使 用 pagesize 命 令 ) 。 同 样 数 次 重复 这 个 命令 ， 可 以 发 现任 
何 动态 分 配 内 存 的 进程 的 大 小 都 在 增长 。 如 果 一 个 进程 看 上 去 不 断 地 增长 而 从 不 
缩小 ， 它 就 有 可 能 出 现 了 内 存 泄漏 。 一 个 非常 严 训 的 现实 是 ， 管 理 动态 内 存 是 一 
项 非常 困难 的 编程 任务 。 有 些 公共 领域 的 X-Window 应 用 程序 因 内 存 泄 漏 而 具名 
昭著 。 


系统 经 常 可 以 使 用 不 同 的 malloc 函 数 库 ， 有 些 在 速度 上 做 了 优化 ， 有 些 则 重 
视 空间 的 充分 利用 ， 男 外 一 些 则 希望 对 调试 有 所 帮助 。 输 入 命令 : 


man -s 3c malloc 


可 以 浏览 主 文档 页 面 ， 观 察 所 有 的 malloc 系 列 函 数 。 要 确认 链接 到 了 正确 的 
函数 库 。Solaris 2.x 上 的 SPARCWorks 调 试 器 有 一 个 扩展 的 特性 来 帮助 检测 内 存 汇 
漏 ， 它 们 取代 了 Solaris 1.x 上 的 一 些 特殊 的 malloc 库 函数 。 


软件 信条 
总 裁 和 printtool 一 一 一 个 内 存 泄漏 的 Bug 


内 存 泄漏 最 简单 的 形式 是 : 


for(i = 6j i < 16; i++) 
p = malloc(1624) ; 


这 是 软件 的 exxon valdex[]， 它 把 你 给 它 的 所 有 东西 都 泄漏 出 去 。 


在 每 一 次 成 功 的 迁 代 之 后 ，p 的 内 容 被 改写 ， 它 原先 所 指向 的 那 块 内 存 便 " 浊 
漏 " 了 。 


由 于 现在 不 存在 指 回 它 的 指针 ， 它 既 无 法 被 访问 ， 也 无 法 被 释放 。 大 多 数 的 
内 存 泄 漏 并 不 像 改写 唯一 指向 该 块 内 存 的 指针 的 内 容 《〈 在 该 块 内 存 释放 之 前 ) 那 
么 明显 ， 所 以 它们 更 难 确 定 和 调试 。 


在 Sun 公 司 ， 出 现 了 一 个 和 printtool 软 件 有 关 的 有 趣 和 案例。 公司 总 裁 Scott 
MCcNealy 的 桌面 系统 上 安装 了 一 个 操作 系统 的 内 部 测试 版 本 加。 总 裁 先 生 很 快 注 
意 到 ， 过 了 几 天 以 后 ， 他 的 工作 站 变 得 越 来 越 慢 ， 对 系统 进行 重启 后 问题 马上 解 
决 。 他 报告 了 这 个 问题 ， 没 有 什么 东西 能 比 一 个 公司 总 裁 作 出 的 Bug 报 告 更 让 那 
些 工程 师 紧张 的 了 。 


我 们 发 现 ， 问 题 是 由 printtool 触 发 的 ， 它 是 print 命 令 的 窗口 界面 。 像 printtool 
这 样 的 软件 更 多 的 是 由 公司 总 裁 这 样 的 人 使 用 而 不 是 由 操作 系统 的 开发 者 使 用 ， 
这 也 是 问题 未 被 发 现 的 原因 。 删 除 prittool 程 序 后 ， 内 存 泄漏 不 再 发 生 。 但 是 使 用 
ps -lu scott 命 令 后 显示 printtool 只 是 引起 内 存 泄漏 ， 它 本 身 的 体积 并 不 增长 。 看 来 
需要 观察 printtool 所 使 用 的 系统 调用 。 


printtool 的 设计 为 它 分 配 了 一 个 命名 管道 Cnamed pipe， 一 种 特殊 的 文件 ， 允 


许 两 个 不 相关 的 进程 进行 通信 ) ， 并 用 它 与 命令 行 printer 进 程 通信 。 每 隔 数 秒 ， 
便 有 新 的 管道 被 创建 ， 如 果 printtool 没 什么 重要 的 东西 要 告诉 printer， 它 很 快 便 被 
销 咒 。 内 存 泄漏 Bug 的 真正 罪魁 祸首 是 创建 管道 的 系统 调用 。 当 创建 管道 时 ， 系 
统 便 分 配 一 些 内 核 的 内 存 来 保存 vnode 数 据 结构 ， 用 于 控制 管道 。 但 是 ， 用 于 记录 
该 结构 的 引用 计数 的 代码 却 少 减 了 1 次 。 


结果 ， 当 用 户 使 用 的 管道 的 真正 数目 减少 到 零 时 ， 引 用 计数 仍然 显示 为 1， 
所 以 内 核 以 为 该 管道 仍 被 使 用 。 这 样 ， 每 当 管道 被 关闭 时 应 该 释放 的 vnode 便 永远 
不 会 被 释放 。 每 次 管道 关闭 的 时 候 ， 内 核 中 几 百 字 节 的 内 存 便 被 泄漏 。 累 计 起 
来 ， 每 日 数 以 MB 计 一 一 只 需 两 到 三 天 ， 便 可 以 使 总 裁 先生 所 使 用 的 系统 慢 得 像 
地 晒 。 


我 们 在 vnode 引 用 计数 的 算法 中 修正 了 这 个 少 减 1 次 的 Bug， 于 是 常规 的 内 核 
内 存 便 按 预想 的 那样 及 时 得 到 回收 。 我 们 还 对 printtool 进 行 了 修改 ， 让 它 使 用 一 种 
更 漂亮 的 算法 ， 而 不 是 连续 不 断 地 每 隔 数秒 向 printer 做 一 次 小 报告 。 内 存 泄漏 被 
墙 上 了 ， 程 序 员 们 大 大 松 了 一 口气 ， 项 目 经 理 的 脸 上 也 重新 出 现 了 笑容 ， 而 总 裁 
先生 又 可 以 使 用 printtool 了 。 


操作 系统 内 核 同 时 动态 管理 它 的 内 存 使 用 。 内 核 中 的 许多 数据 表 是 动态 分 配 
的 ， 所 以 预先 没有 固定 的 限制 。 如 果 一 个 内 核 程序 错误 引起 内 存 泄漏 ， 机 器 的 速 
度 便 会 慢 下 来 ， 有 时 机 器 干脆 挂 起 或 甚至 不 知 所 措 。 当 内 核 程 序 请 求 内 存 时 ， 它 
们 通常 会 进行 等 待 ， 直 到 有 足够 的 内 存 可 以 分 配 为 止 。 如 果 出 现 内 存 泄 漏 ， 最 终 
可 能 导致 可 以 分 配 的 内 存 无 法 满足 内 核 的 需要 ， 使 得 每 个 内 核 程序 都 无 限制 地 等 
待 ， 于 是 机 器 便 被 挂 起 。 内 核 中 的 内 存 泄漏 往往 很 快 便 被 发 现 ， 因 为 绝 大 多 数 内 
核 程序 的 使 用 都 相当 频繁 。 我 们 有 一 些 专 用 软件 工具 用 于 测试 和 实行 内 核 内 存 管 
和 


77 总 然 错误 


当 我 从 20 世 纪 70 年 代 末 开始 在 UNIX 上 编程 时 ， 和 许多 人 一 样 ， 我 很 快 就 遇 
到 了 两 个 第 见 的 运行 时 错误 : 


bus error(core dumped) 总 线 错误 信息 已 转 储 ) 


和 


segmentation fault(core dumped) 段 错 误 〈 信 息 已 转 储 ) 


当时 这 两 个 错误 是 非常 折磨 人 的 : 错误 信息 对 引起 这 两 种 错误 的 源 代码 错误 
并 没有 做 简单 的 解释 ， 上 面 的 信息 并 未 提供 如 何 从 代码 中 寻找 错误 的 线索 ， 而 且 
两 者 之 间 的 区 别 也 并 不 是 十 分 清楚 ， 时 至 今日 依然 如 此 。 


大 多 数 的 问题 都 是 出 于 这 样 一 个 事实 : 错误 就 是 操作 系统 所 检测 到 的 异常 ， 
而 这 个 异常 是 尽 可 能 地 以 操作 系统 方便 的 原则 来 报告 的 。 总 线 错误 和 上 段 错 误 的 准 
确 原 因 在 不 同 的 操作 系统 版 本 上 各 不 相同 。 这 里 ， 我 所 描述 的 是 运行 于 SPARC 织 
构 的 SunOS 出 现 的 这 两 类 错误 以 及 产生 错误 的 原因 。 


当 硬 件 告诉 操作 系统 一 个 有 问题 的 内 存 引 用 时 ， 就 会 出 现 这 两 种 错误 。 操 作 
系统 通过 向 出 错 的 进程 发 送 一 个 信号 与 之 交流 。 信 和 号 就 是 一 种 事件 通知 或 一 个 软 
件 中 断 ， 在 UNIX 系 统 编程 中 使 用 很 广 ， 但 在 应 用 程序 编程 中 几乎 不 使 用 。 在 缺 
省 情况 下 ， 进 程 在 收 到 “总 线 错误 ?或 * 段 错误 ”信和 号 后 将 进行 信息 转 储 并 终止 。 不 
过 可 以 为 这 些 信号 设置 一 个 信号 处 理 程序 (signal handler) ， 用 于 修改 进程 的 缺 
省 反应 。 


言 号 是 由 于 人 硬件 中 断 而 产生 的 。 对 中 断 的 编程 是 非常 困难 的 ， 因 为 它们 是 异 
步 发 生 的 《〈 即 发 生 时 间 是 不 可 预测 的 ) 。 因 此 ， 信 号 编程 和 调试 也 是 很 困难 的 。 
可 以 通过 阅读 信和 号 的 主 文档 和 头 文件 usvinclude/sys/signalh 了 解 更 多 相关 的 信息 。 


编程 挑战 
在 PC 上 捕捉 信和 号 
现在 ， 信 号 处 理 函 数 是 ANSI C 的 一 部 分 ， 与 UNIX 一 样 ， 它 也 同样 适用 于 


PC。 例 如 ，PC 程 序 员 可 以 使 用 signalO0 函 数 来 捕捉 Ctrl-Break 信 号 ， 防 止 用 户 用 这 
种 方法 中 断 程序 。 


请 在 PC 上 编写 一 个 捕捉 INT 1B (Ctrl-Break) 信号 的 信号 处 理 程序 ， 让 它 打 
印 一 条 友好 的 用 户 信 息 但 并 不 退出 程序 。 


如 果 你 使 用 UNIX， 请 编写 一 个 信号 处 理 程序 ， 这 样 在 收 到 Ctrl-C〔( 传 递 给 一 
个 UNIX 进 程 的 Ctrl-C 用 作 一 个 SIGINT 信 号 ) 信号 后 程序 将 重新 启动 而 不 是 简单 退 
出 。 可 以 使 用 typedef 来 帮助 你 定义 信号 处 理 块 ， 详 见 第 3 章 有 关 声 明 的 描述 。 


在 任何 使 用 信号 的 源 文件 中 ， 都 必须 在 文件 前 面 增加 一 行 # include 


<singal.h>。 


这 条 信息 的 core dump 部 分 则 来 源 于 很 早 的 过 去 ， 那 时 所 有 的 内 存 都 是 由 铁 氧 
化 物 圆 环 〈 也 就 是 core， 磁 心 ) 制造 的 。 半 导体 作为 内 存 的 主要 制造 材料 的 时 间 
已 经 超过 了 15 年 ， 但 core 这 个 词 仍然 被 用 作 * 内 存 ” 的 同义词 。 

7.7.1 总 线 错 误 


事实 上 ， 总 线 错误 几乎 都 是 由 未 对 齐 的 读 或 写 引 起 的 。 它 之 所 以 称 为 总 线 错 


误 ， 是 因为 出 现 未 对 齐 的 内 存 访问 请 求 时 ， 被 堵塞 的 组 件 就 是 地 址 总 线 。 对 章 
Galignment) 的 意思 就 是 数据 项 只 能 存储 在 地 址 是 数据 项 大 小 的 整数 倍 的 内 存 位 
置 上 。 在 现代 的 计算 机 架构 中 ， 尤 其 是 RISC 架 构 ， 都 需要 数据 对 齐 ， 因 为 与 任意 
的 对 齐 有 关 的 额外 逻辑 会 使 整个 内 存 系统 更 大 且 更 慢 。 通 过 迫使 每 个 内 存 访 问 局 
限 在 一 个 cache 行 或 一 个 单独 的 页 面 内 ， 可 以 极 大 地 简化 (并 加 速 》 如 cache 控 制 
器 和 内 存 管理 单元 这 样 的 硬件 。 


我 们 表达 “数据 项 不 外 ee 界 ” 规 则 的 方法 多 少 有 些 间接 ， 因 为 
我 们 用 地 址 对 齐 这 个 术语 来 陈述 这 个 问题 ， 而 不 是 直截了当 地 说 是 禁止 内 存 跨 页 
访问 ， 但 它们 说 的 是 同一 回 事 。 例 如 ， 访 问 一 个 8 字 节 的 double 数 据 时 ， 地 址 只 允 
许 是 8 的 整数 倍 。 所 以 一 个 double 数 据 可 以 存储 于 地 址 24、8008 或 32768， 但 不 能 
存储 于 地 址 1006 (因为 它 无 法 被 8 整除 ) 。 页 和 cache 的 大 小 是 经 过 精心 设计 的 ， 
这 样 只 要 遵守 对 齐 规则 就 可 以 保证 一 个 原子 数据 项 不 会 跨越 一 个 页 或 cache 块 的 边 
界 。 


这 种 数据 必须 对 齐 的 存储 要 求 总 是 
边沿 行走 ， 但 脚 不 能 页 到 人 行道 石头 的 裂缝 上 ，“ 走 在 裂缝 上 ， 会 折断 你 祖母 的 
背 ” 有 点 类 似 “ 提 取 未 对 齐 地 址 数据 然后 低 声 诅 守 ,会 引起 一 个 总 线 错 误 ”。 也 许 这 
有 点 像 弗 洛 依 德 学 说 或 其 他 神秘 的 东西 。 母 杀 在 多 愁 善 感 的 年 龄 时 曾 被 一 个 
Fortran MO 通道 吓 坏 。 一 个 会 引起 总 线 错误 的 小 程序 是 : 


union { char a[16]; 
int i; 
U; 
int *p = (int *)&(u.a[1] 


); 
*p = 17; ”/* p 中 未 对 齐 的 地 址 会 引起 一 个 总 线 错 误 ! */ 


这 将 导致 一 个 总 线 错误 ， 因 为 数组 和 int 的 联合 确保 数组 a 是 按照 int 的 4 字 节 对 
齐 的 ， 所 以 “a+1” 的 地 址 上 表 定 未 按 int 对 齐 。 A 之 个 地 址 存储 4 字 市 的 
数据 ， 但 这 个 访问 只 是 按照 单字 市 的 char 对 齐 ， 这 就 违反 了 规则 。 一 个 好 的 编译 
器 在 发 现 不 对 齐 的 情况 时 会 发 出 敬告， 但 它 并 不 能 检测 到 所 有 不 对 齐 的 情况 。 


编译 器 通过 上 自动 分 配 和 填充 数据 (在 内 存 中 ) 来 进行 对 齐 。 当 然 ， 在 磁盘 或 
磁带 上 并 没有 这 样 的 对 齐 要 求 ， 所 以 程序 员 在 其 上 可 以 很 愉快 地 不 必 关 心 数据 对 
齐 。 但 是 ， 当 他 们 把 一 个 char 指 针 转 换 为 int 指 针 时 ， 就 会 出 现 神 秘 的 总 线 错 误 。 
几 年 前 ， 当 检测 到 一 个 内 存 奇偶 检验 错误 时 也 会 产生 总 线 错 误 。 现 在 ， 内 存世 方 
己 经 非常 可 笔 ， 而 且 很 好 地 得 到 了 错误 检测 和 修正 电路 的 保护 ， 所 以 在 应 用 程序 
编程 这 一 级 ， 奇 偶 检 验 错 误 几 乎 不 再 听闻 。 总 线 错 误 也 可 能 由 于 引用 一 块 物理 上 
不 存在 的 内 存 引 起 。 如 果 不 遭 遇 一 个 淘气 的 驱动 程序 ， 你 仆人 不 大 可 能 遭遇 这 种 


不 幸 。 


7.7.2 上段 错误 


大 家 对 上 段 错误 或 段 违规 (segmentation violation〉 应 该 已 经 很 清楚 了 ， 因 为 前 
面 对 段 模型 已 经 做 了 解释 。 在 Sun 的 硬件 中 ， 段 错误 由 内 存 管 理 单元 (负责 支持 
虚拟 内 存 的 硬件 ) 的 异常 所 致 ， 而 该 异常 则 通常 是 由 解除 引用 一 个 未 初始 化 或 非 
法 值 的 指针 引起 的 。 如 果 指 针 引 用 一 个 并 不 位 于 你 的 地 址 空间 中 的 地 址 ， 操 作 系 
统 便 会 对 此 进行 干涉 。 一 个 会 引起 段 错误 的 小 型 程序 如 下 : 


int *p = @; 
*p = 17; /* 引起 一 个 段 错误 、*/ 


一 个 微妙 之 处 是 ， 不 同 的 编程 错误 通常 会 导致 指针 具有 非法 的 值 。 与 总 线 错 
误 不 同 ， 段 错误 更 像 是 一 个 间接 的 症状 而 不 是 引起 错误 的 原因 。 


一 个 更 糟糕 的 微妙 之 处 是 ， 如 果 未 初始 化 的 指针 恰好 具有 未 对 齐 的 值 〈《 对 于 
指针 所 要 访问 的 数据 而 言 ) ， 它 将 会 产生 总 线 错 误 ， 而 不 是 段 错误 。 对 于 绝 大 多 
数 架构 的 计算 机 而 言 确实 如 此 ， 因 为 CPU 先 看 到 地 址 ， 然 后 再 把 它 发 送 给 MMU。 


编程 挑战 
测试 使 你 的 软件 骨 演 
完成 上 面 的 测试 程序 段 。 
试 试 运行 它们 ， 看 看 操作 系统 是 怎样 报告 这 些 Bug 的 。 


附加 分 : 编写 一 个 信号 处 理 程序 来 捕 提 总线 错误 和 上 段 错误 信号 ， 让 它们 打印 
一 条 对 用 户 更 为 友好 的 信息 ， 然 后 退出 。 


运行 你 的 程序 。 


在 你 的 代码 中 ， 对 非法 指针 值 的 解除 引用 操作 既 可 能 会 像 上 面 这 样 显 式 地 出 
现 ， 也 可 能 在 库 函 数 中 出 现 〈 传 递 给 它 一 个 非法 值 ) 。 令 人 不 快 的 是 ， 你 的 程序 
如 果 进 行 了 修改 〈 如 在 调试 状态 下 编译 或 增加 额外 的 调试 语句 ) ， 内 存 的 内 容 便 
很 容易 改变 ， 于 是 这 个 问题 被 转移 到 别处 或 干脆 消失 。 段 错误 是 非常 难以 解决 
的 ， 而 且 只 有 非常 奖 固 的 段 错误 才 会 一 直 存 在 。 当 你 看 到 同事 神色 严峻 地 带 着 逻 
辑 分 析 嚣 和 示 波 占 进入 测试 实验 室 时 ， 便 知道 他 们 肯定 过 到 了 真正 的 麻烦 。 


| 
软件 信条 


SunOS 中 的 一 个 段 违规 Bug 


最 近 ， 我 们 不 得 不 处 理 一 个 段 违 规 问 题 ， 错 误 发 生 于 ncheck 实 用 程序 运行 于 


一 个 受 损 的 文件 系统 之 时 。 这 是 一 个 十 分 恼人 的 Bug， 因 为 在 绝 大 多 数 情况 下 ， 
使 用 ncheck 的 目的 就 是 为 了 检查 怀疑 有 所 损坏 的 文件 系统 。 


问题 的 症状 是 ncheck 无 法 运行 printf， 直 接 原因 是 解除 引用 一 个 空 指 针 而 引起 
段 违规 。 导 致 问题 的 语句 如 下 : 


(void)printf("%s", p->name); 


绝 大 多 数 Yoyodyne Software 公 司 的 程序 员 新 手 会 用 一 种 哆 旺 的 方法 来 修正 这 


个 问题 : 


if(p->name != NULL) 
(void)printf("%s", p->name); 


else 
(void)printf("(nul1)"); 


不 过 ， 在 现在 这 个 情况 下 ， 可 以 改 用 条 件 操 作 符 ， 它 既 可 以 简化 代码 ， 又 可 
以 保持 引用 的 局 部 性 : 


(void)printf("%s", p->name ? p->name : "(null)"); 


许多 人 不 愿意 使 用 -? -:- 这 样 的 条 件 操作 符 ， 他 们 认为 这 种 方法 很 容易 把 人 搞 
混 。 但 与 下 面 这 个 让 语句 相 比 ， 条 件 操 作 符 似乎 更 合理 一 些 : 


if (表达 式 ) 表达 式 非 零 时 的 语句 else 表达 式 为 零 时 的 语句 


表达 式 ? 表达 式 非 零 时 的 语句 : 表达 式 为 零 时 的 语句 


相形 之 下 ， 条 件 操 作 符 颇 符 合 直 觉 ， 并 允许 我 们 高 高 兴 兴 地 在 一 行内 写 下 代 
码 ， 而 无 须 不 必要 地 使 代码 膨胀 。 但 是 ， 干 万 不 要 在 一 个 条 件 操 作 符 内 髓 套 男 一 
个 条 件 操 作 符 。 如 果 这 样 做 了 ， 你 很 快 就 会 发 现 要 想 明 白 代 码 的 确切 意思 可 不 是 
件 容 易 的 事情 。 


通常 导致 段 错误 的 几 个 直接 原因 如 下 所 示 。 


。 解除 引用 一 个 包含 非法 值 的 指针 。 

。 解除 引 用 一 个 空 指针 (常常 由 于 从 系统 程序 中 返回 空 指针 ， 并 未 经 检查 就 使 
用 ) 。 

。 在 未 得 到 正确 的 权限 时 进行 访问 。 例 如 ， 试 图 往 一 个 只 读 的 文本 段 存储 值 就 
会 引起 段 错误 。 

。 用 完了 堆栈 或 堆 空 间 (虚拟 内 存 虽 然 巨 大 但 绝 非 无 限 )。 


下 面 这 个 说 法 可 能 过 于 简单 ， 但 在 绝 大 多 数 架构 的 绝 大 多 数 情 况 下 ， 总 线 错 
误 意 味 着 CPU 对 进程 引用 内 存 的 一 些 做 法 不 满 ， 而 段 错误 则 是 MMU 对 进程 引用 内 
存 的 一 些 情况 发 出 抱怨 。 


以 发 生 频率 为 序 ， 最 终 可 能 导致 段 错 误 的 常见 编程 错误 如 下 所 示 。 


1. 坏 指针 值 错 误 : 在 指针 赋值 之 前 就 用 它 来 引用 内 存 ， 或 者 向 库 函 数 传送 
一 个 坏 指 针 《〈 不 要 上 当 ! 如 果 调 试 器 显示 系统 程序 中 出 现 了 段 错误 ， 并 不 是 因为 
系统 程序 引起 了 段 错误 ， 问 题 很 可 能 还 在 存在 于 自己 的 代码 中 ) 。 第 三 种 可 能 
致 坏 指 针 的 原因 是 对 指针 进行 释放 之 后 再 访问 它 的 内 容 。 可 以 修改 free 语 句 ， 在 
指针 释放 之 后 再 将 它 置 为 空 值 。 


free(p); p = NULL; 


这 样 ， 如 果 在 指针 释放 之 后 继续 使 用 该 指针 ， 人 至 少 程序 能 在 终止 之 前 进行 信 
恩 转 储 。 


2. 改写 (overwrite) 错误 : 越过 数组 边界 写 入 数据 ， 在 动态 分 配 的 内 存 两 
端 之 外 写 入 数据 ， 或 改写 一 些 堆 管 理 数据 结构 〈 在 动态 分 配 的 内 存 之 前 的 区 域 写 
入 数据 就 很 容易 发 生 这 种 情况 ) 。 


p = malloc(256); p[-1] = 6;j p[256] = 6; 


3. 指针 释放 引起 的 错误 : 释放 同一 个 内 存 块 两 次 ， 或 释放 一 块 未 曾 使 用 
malloc 分 配 的 内 存 ， 或 释放 仍 在 使 用 中 的 内 存 ， 或 释放 一 个 无 效 的 指针 。 一 个 极 


为 常见 的 与 释放 内 存 有 关 的 错误 就 是 在 for(p = start; p; p =p -> next) 这 样 的 循环 中 
和 迭代 一 个 链表 ， 并 在 循环 体内 使 用 free(p) 语 句 。 这 样 ， 在 下 一 次 循环 迭代 时 ， 程 
序 就 会 对 已 经 释放 的 指针 进行 解除 引用 操作 ， 从 而 导致 不 可 预料 的 结 


小 启发 


如 何在 链表 中 释放 元 素 


在 遍历 链表 时 正确 释放 元 素 的 方法 是 使 用 临时 变量 存储 下 一 个 元 素 的 地 址 。 
这 样 就 可 以 安全 地 在 任何 时 候 释 放 当 前 元 素 ， 而 不 必 担 心 在 取 下 一 个 元 素 的 地 址 
时 还 要 引用 它 。 代 码 如 下 : 


struct node *p, *start, *tmp; 
for(p = start; p; p = tmp) 


tmp = p -> next; 
free(p); 


软件 信条 


你 的 程序 空间 不 够 吗 ? 


如 果 你 的 程序 所 需 的 内 存 超过 了 操作 系统 所 能 提供 给 它 的 数量 ， 程 序 就 会 发 


出 一 条 “ 段 错误 ”信息 并 终止 。 可 以 用 一 种 简单 的 方法 把 这 种 段 错误 与 其 他 基于 
Bug 的 段 错误 区 分 开 来 。 


要 弄 清 程序 是 否 用 完了 堆栈 ， 可 以 在 dbx 命 令 下 运行 该 程序 : 


% dbx a.out 
(dbx) catch SIGSEGV 


(dbx) run 


signal SEGV (segmentation violation) in at 6xeff57768 
(dbx) where 


如 果 现 在 可 以 看 到 调用 链 ， 那 说 明 堆栈 空间 还 没有 用 完 。 


但 是 ， 如 果 看 到 像 下 面 这 样 的 提示 : 


fetch at 6xeffe7a66 failed -- I/O error 
(dbx) 


那么 ， 堆 栈 很 可 能 已 经 用 完 。 上 面 这 个 十 六 进 制 数 就 是 可 以 提取 或 映射 的 堆 
栈 地 址 。 


你 也 可 以 尝试 在 C-shell 中 调整 堆栈 段 的 大 小 限制 。 


limit stacksize 16 


你 可 以 在 C-shell 中 调整 堆栈 段 和 数据 段 的 最 大 值 。 上 面 语句 的 意思 就 是 把 堆 
栈 段 的 上 限 调整 为 10KB。 试 一 下 给 你 的 程序 一 个 更 小 的 堆栈 值 ， 看 看 在 它 会 不 会 
更 早出 现 段 错误 。 再 试 试 给 程序 一 个 更 大 的 堆栈 值 ， 使 它 能 够 成 功 地 运行 。 进 程 
的 总 地 址 空间 仍然 受 交换 区 大 小 的 限制 ， 可 以 用 swap -s 命 令 查 看 交换 区 的 大 小 。 


当 程 序 出 现 坏 指 针 值 时 ， 什 么 样 的 结果 都 有 可 能 发 生 。 一 种 广 为 接 受 的 说 法 
是 ， 如 果 “ 你 走运 ”， 指 针 将 指向 你 的 地 址 空间 之 外 ， 这 样 第 一 次 使 用 该 指针 时 就 


会 使 程序 进行 信息 转 储 后 终止 。 如 果 你 “不 走运 ”， 指 针 将 指向 你 的 地 址 空间 之 
内 ， 并 损坏 (改写 ) 它 所 指向 的 内 存 的 任何 信息 。 这 将 引起 隐 具 的 Bug， 非 常 难 
以 捕捉 。 近 年 来 ， 市 场 上 出 现 了 一 些 优秀 的 工具 软件 ， 可 以 帮助 解决 这 方面 的 问 


题 。 


7.8 轻松 一 下 一 一 “Thing King” 和 “页 面 游戏 ” 


下 面 这 节 内 容 是 由 Jeff Berryman 于 1972 年 所 写 ， 当 时 他 工作 于 MAC 项 目 ， 并 
运行 着 一 个 早期 的 虚拟 内 存 系统 。Jeff 多 少 有 些 不 平地 评论 道 ， 他 所 有 的 作品 中 
唯 有 这 个 最 受 欢迎 ， 流 传 也 最 广 。20 多 年 过 去 了 ， 它 的 内 容 对 于 现在 仍然 适用 。 


这 个 说 明 是 一 份 正 式 的 非 工 作 场 合 文 档 ， 属 于 Project MAC Computer Systems 
Research Division。 它 应 该 被 复制 并 发 布 到 缺少 轻松 气氛 的 地 方 ， 并 可 以 随 你 所 愿 
在 其 他 的 出 版 物 中 用 作 参 考 资 料 。 


规则 


1. 每 位 选手 有 几 百 万 的 Thing。 


2. 所 有 的 Thing 都 保存 在 箱子 时 ， 每 箱 保存 4096 个 Thing。 位 于 同一 个 箱子 里 
的 Thing 称 为 “ 箱 友 ”。 


3. 箱子 既 可 以 存放 在 车 间 中 ， 也 可 以 存放 在 仓库 里 。 车 间 总 是 太 小 ， 无 法 
容纳 所 有 的 箱子 。 


4. 总 共 只 有 一 个 车 间 ， 但 可 以 有 好 几 个 仓库 。 每 位 选手 共享 车 间 和 仓库 。 
5. 每 个 Thing 都 有 自己 的 Thing 写 。 


6. 可 以 对 Thing 进 行 锻压 ， 每 位 选手 轮流 进行 锻压 。 


7. 只 能 锻压 自己 的 Thing， 不 允许 锻压 其 他 选手 的 Thing。 


8. Thing 只 有 在 车 间 里 时 才能 被 锻压 。 


9. 只 有 Thing King 知 道 某 个 Thing 是 位 于 车 间 中 还 是 位 于 仓库 里 。 
10. 一 个 Thing 未 被 锻压 的 时 间 越 长 ， 它 就 变 得 越 脏 。 


11. 必须 通过 Thing King 才 能 得 到 Thing。 它 所 给 的 Thing 数 以 8 的 整数 倍 计 ， 
这 样 可 以 有 效 地 减少 维护 性 开销 。 


12. 锻压 一 个 Thing 的 方法 就 是 给 出 它 的 Thing 号 。 如 果 你 所 给 出 Thing 的 编号 
正好 位 于 车 间 内 ， 它 就 可 以 立即 进行 锻压 。 如 果 它 位 于 仓库 中 ，Thing King 把 装 
有 该 Thing 的 箱子 从 仓库 中 搬 到 车 间 内 。 如 果 车 间 内 已 没有 空位 置 ， 它 就 选取 最 及 
的 箱子 ， 不 管 它 里 面 装 的 是 你 的 Thing 还 是 其 他 选手 的 Thing， 把 它 以 及 内 面 所 有 
的 Thing 都 搬 到 仓库 里 。 空 出 来 的 位 置 就 存放 装 有 所 需 Thing 的 箱子 。 然 后 ， 你 就 
可 以 对 该 Thing 进 行 锻压 ， 而 你 并 不 知道 该 Thing 原 先是 存放 在 仓库 中 。 


13. 每 位 选手 拥有 的 Thing 数 量 与 其 他 选手 相同 。Thing King 始 终 知道 哪个 
Thing 是 哪 位 选手 的 以 及 该 轮 到 哪 位 选手 进行 锻压 ， 所 以 你 不 可 能 意外 地 锻压 了 其 
他 选手 的 Thing， 即 使 该 Thing 的 Thing 号 与 你 的 Thing 的 Thing 号 相同 。 


说 明 


1. 根据 传统 ，Thing King 坐 在 一 张 巨大 划分 成 数 段 的 桌子 边 ， 旁 边 是 一 些 页 
(所 谓 的 “ 桌 页 ”>) ， 它 们 的 任务 是 协助 Thing King 记 住所 有 的 Thing 位 于 何 处 以 及 
它们 分 别 属于 哪 位 选手 。 


2. 规则 13 的 一 个 结果 就 是 在 各 场 游戏 中 ， 每 位 选手 的 Thing 号 都 类 似 ， 即 使 
选手 数量 不 同 。 

3. Thing King 也 有 它 自己 的 Thing， 其 中 有 些 也 像 其 他 Thing 一 样 来 回 移动 于 
车 间 和 仓库 之 间 。 但 Thing King 的 有 些 Thing 过 于 沉重 ， 只 能 一 直 存 放 在 车 间 里 。 


4. 根据 给 定 的 规则 ， 经 常 被 锻压 的 Thing 更 可 能 被 存放 于 车 间 内 ， 而 不 经 常 


被 锻压 的 Thing 则 更 可 能 被 放置 在 仓库 中 ， 这 出 自 于 效率 方面 的 考虑 。 


Thing King 万 岁 ! 


现在 你 觉得 上 面 的 描述 较 之 下 面 的 非 富 言 翻译 版 是 不 是 更 有 趣 一 些 呢 ? 
规则 


1. 每 个 进程 拥有 几 百 万 的 “ 字 节 ”。 


2， 字 节 存 放 于 “页 中， 每 页 4096 字 节 。 位 于 同一 页 上 的 字 节 具有 “本 地 引 
用 ”关系 


3. 页 既 可 以 存放 在 内 存 中 ， 也 可 以 存放 在 磁盘 中 。 内 存 一 般 不 够 大 ， 无 法 
容纳 所 有 的 页 。 


4. 忆 共 只 有 一 块 内 存 ， 但 可 以 有 几 个 磁盘 ， 所 有 进程 共享 内 存 和 磁盘 。 


5. 每 个 字 市 都 有 自己 的 “虚拟 地 址 ”。 


6. 进程 可 以 对 一 个 字 节 进行 “引用 操作 ”"。 每 个 进程 轮流 进行 引用 操作 。 


7. 每 个 进程 只 能 引用 自己 的 字 节 ， 不 能 引用 其 进程 的 字 节 。 


8. 字 节 只 有 当 它 们 位 于 内 存 中 时 才能 被 引用 。 


9， 只 有 “虚拟 内 存 管 理 器 知道 茶 个 字 节 位 于 内 存 还 是 位 于 磁盘 。 


10. 一 个 字 节 不 被 引用 的 时 间 越 长 ， 它 就 越 “ 旧 ”。 


11. 进程 必须 通过 虚拟 内 存 管理 器 得 到 字 节 。 它 所 给 的 字 节 数量 是 2 的 倍数 
或 乘 方 数 ， 这 有 助 于 减少 开销 。 


12. 进程 引用 字 节 的 方法 就 是 给 出 它 的 虚拟 地 址 。 如 果 进 程 所 给 出 的 虚拟 地 


址 恰好 位 于 内 存 中 ， 那 么 进程 就 可 以 立即 引用 它 。 如 果 它 位 于 磁盘 中 ， 虚 拟 内 存 
管理 需 会 把 包含 该 字 节 的 页 移入 到 内 存 中 。 如 果 内 存 空间 已 满 ， 它 就 寻找 内 存 中 
最 旧 的 页 (可 能 是 该 进程 自己 的 ， 也 可 能 是 其 他 进程 的 ) ， 把 它 换 到 磁盘 中 ， 腾 
出 来 的 空间 就 存放 包含 你 需要 字 节 的 页 。 然 后 ， 进 程 就 可 以 引用 该 字 节 ， 但 进程 
并 不 知道 该 页 原先 位 于 磁盘 中 。 


13. 每 个 进程 拥有 的 字 节 的 虚拟 地 址 与 其 他 进程 一 样 。 虚 拟 内 存 管理 器 始终 
知道 谁 拥有 哪个 字 节 以 及 该 轮 到 谁 进行 引用 操作 ， 所 以 一 个 进程 不 会 无 意 引 用 其 
他 进程 的 字 节 ， 即 使 两 者 的 虚拟 地 址 相同 。 


说 明 


1. 根据 传统 ， 虚 拟 内 存 管理 器 使 用 一 张 很 大 且 分 段 的 表 ， 男 外 还 有 “页 表 ” 用 
于 记 住所 有 字 节 的 位 置 以 及 它们 的 主人 。 


2. 规则 13 的 一 个 结果 吉 是 各 次 运行 中 每 位 进程 的 虚拟 地 址 都 类 似 ， 即 使 进 
程 的 数量 有 所 变化 。 


3. 虚拟 内 存 管理 器 也 拥有 自己 的 一 些 字 节 ， 它 们 中 的 有 些 也 和 一 般 进 程 的 
字 市 一 样 在 内 存 和 磁盘 中 移 来 移 去 。 但 是 ， 它 的 有 些 字 节 使 用 频率 非常 之 高 ， 所 
以 常 驻 内 存 。 


4. 按照 上 述 规则 ， 经 常 被 引用 的 字 节 更 有 可 能 被 存放 在 内 存 中 ， 而 不 太 被 
引用 的 字 节 则 更 可 能 被 存放 在 磁盘 中 ， 这 可 以 提高 内 存 的 使 用 效率 。 


虚拟 内 存 管理 器 万 岁 ! 


解决 方案 


捕捉 段 错误 信号 的 信号 处 理 程序 


#include &ltjsignal.h&gt; 
#include “stdio.h> 
void handler(int s) 


{ 
if(s == SIGBUS) printf(" 
if(s == SIGSEGV) printf(" 
if(s == SIGILL) printf(" 
exit(1); 

main() 

{ 
int *p = NULL; 
signal(SIGBUS, handler); 
signal(SIGSEGV, handler); 
signal(SIGILL, handler); 
*p = 0; 

} 


now got a bus error signal\n"); 
now got a segmentation violation signal\n"); 
now got an illegal instruction signal\n"); 


运行 该 程序 ， 输 出 结果 如 下 : 


% a.out 
now got a segmentation violation signal 


在 这 种 情况 下 ， 妆 信号 处 型 


注意 ， 这 是 一 个 用 于 教学 


目的 的 例子 。ANSI 标 准 第 7.7.1.1 节 指出 ， 在 我 们 现 


是 未 定义 的 。 


程序 调用 任何 标准 库 函 数 时 (如 printf) ， 程 序 的 行为 


使 用 setjmp/longjmp 从 信号 中 恢复 


下 面 这 个 程序 使 用 setjmp/longjmp 和 信号 处 理 。 这 样 ， 程 序 在 收 到 一 个 Ctrl- 
C《〔 作 为 SIGINT 信 号 传递 给 UNIX 程 序 ) 时 将 重新 启动 ， 而 不 是 退出 。 


#include <setjmp.h> 
#include <signal.h> 
#include <stdio.h> 
jmp_buf buf; 

void handler(int s) 


if(s == SIGINT) printf("now got a SIGINT signal\n"); 
longjmp(buf, 1); 
/* 没有 到 达 */ 


main() 


signal(SIGINT, handler); 
if(setjmp(buf)) 


printf("back in main\n"); 
return 90; 
}else 
printf("first time through"); 
loop: 
/* 在 这 里 循环 ， 等 待 ctr1-C */ 
goto loop; 


} 


运行 这 个 程序 ， 结 果 如 下 : 


% a.out 


first time through 
^C now got a SIGINT signal 
back in main 


注意 ， 系 统 并 不 文 持 在 信号 处 理 程序 内 部 调用 库 函 数 〈 除 非 严 格 符合 标准 所 
限制 的 条 件 ) 。 如 果 信 号 是 在 第 一 次 使 用 printf 时 产生 ， 那 么 在 信号 处 理 程序 中 的 
printf 函 数 面 对 这 种 情况 就 会 陷入 困惑 。 我 们 在 这 里 使 用 了 投机 手段 ， 因 为 观察 情 
况 变 化 的 最 好 方法 葛 过 于 交互 式 WO。 你 在 现实 的 代码 中 绝 不 能 使 用 这 种 仪 俩 ， 记 


住 了 吗 ? 


[1] 从 文学 效果 上 说 ， 它 表示 “Quick and Dirty Operating System”( 快 速 而 脏 脏 的 
操作 系统 ) 。 


[2] SVID (System V Interface Definition， 系 统 V 接 口 定 义 ) 是 一 份 描述 System 
VAPI 的 重量 级 文档 。 


[3] 我 们 深 知 其 中 微妙 ， 所 以 我 们 是 以 绝对 规范 的 方式 来 使 用 “规范 ”这 个 词 的 。 
[4] 只 限于 DOS 时 代 ， 现 在 的 Windows 系 统 也 使 用 了 虚拟 内 存 。 一 一 译 者 注 


5] ”如 果 你 对 内 存 的 引用 超过 了 break 的 位 置 ， 你 的 程序 就 会 出 错 。 


Si 


[6] 事实 上 现在 〈2002 年 ) 的 主流 机 器 仍 为 32 位 ， 所 以 单个 进程 的 空间 限制 仍 为 
4GB， 不 过 磁盘 容量 已 大 为 增加 。 如 果 出 现 进程 达到 4GB 而 交换 区 尚未 耗 尽 〈 理 
论 上 ) ， 这 种 情况 也 是 有 可 能 的 。 一 一 译 者 注 


[7] 油轮 名 ， 这 艘 油轮 曾 引 起 一 次 严重 的 漏 油 事故 。1989 年 3 月 24 日 ， 它 在 阿拉 
斯 加 的 威廉 王子 海峡 触礁 ， 导 致 1100 万 加 仓 的 原油 倾泻 到 大 海中 ， 这 是 美国 有 史 
以 来 最 严重 的 漏 油 事件 。 一 一 译 者 注 


[8] 事实 上 ， 这 是 一 个 很 好 的 主意 。 让 总 裁 先 生 运 行 软件 的 早期 版 本 并 参与 内 部 
测试 过 程 会 让 每 个 人 都 不 敢 大 意 。 它 确保 高 层 管理 人 员 对 产品 的 进展 以 及 取得 的 
改进 有 一 个 良好 的 认识 。 它 可 以 给 产品 工程 师 提供 去 掉 最 后 一 些 Bug 的 动力 和 资 
源 。 


六、 、 A ys » 
第 8 草 ”为 什么 程序 员 无 法 分 清 万 荆 节 和 和 羊 诞 节 
你 是 否 已 经 受 够 了 你 的 工作 站 的 慢 速 度 ? 想 不 想 让 你 的 程序 的 运行 速度 提高 
一 倍 ? 
在 UNIX 系 统 中 ， 只 要 一 步 步 按 下 面 这 3 个 轻松 的 步骤 进行 即 可 实现 。 


1. 设计 一 个 高 性 能 的 UNIX vm 内 核 ， 并 用 代码 实现 。 干 万 小 心 ! 你 的 算法 
需要 比 现 在 运行 的 那个 的 最 快速 度 还 要 快 一 倍 。 


2. 把 你 的 代码 存 为 /kernel/unix.c 文 件 。 


CC -04 -o /kernel/unix /kernel/unix.c 


然后 ， 重 新 启动 系统 。 
就 是 这 么 简单 。 记 住 ， 贝 多 芬 就 是 用 C 语 言 编 写 了 他 的 第 一 首 交 啊 乐 。 


—— A.P.L. Byteswayp 的 Big Book of Tuning Tips and Rugby Songs 


8.1 ”Portzebie 度 量 衡 系统 


当 毕 加 索 评论 说 计算 机 并 不 有 趣 时 ， 我 们 当然 知道 他 的 真实 目的 只 不 过 想 让 
更 多 的 人 关注 他 的 谈话 罢了 。 艺 术 家 的 使 命 就 是 要 挑战 现 有 的 口味 ， 对 其 提出 质 
询 ， 或 至 少 要 确保 每 道 菜 都 有 警 条 。 因 此 ， 我 们 在 第 8 章 展 开 一 个 计算 机 传说 中 
程序 员 为 什么 不 能 分 清 万 圣 节 和 圣诞 节 的 老 问 题 ， 实 在 是 再 合适 不 过 了 。 在 讨论 
这 个 话题 之 前 ， 我 首先 要 提 一 下 举世 闻名 的 计算 机 科学 家 Donald Knuth 的 作品 。 
Knuth 教 授 多 年 来 一 直 执教 于 斯 坦 福 大 学 ， 他 撰写 了 The Art of Computer 
Programmingl 这 部 参考 价值 极 高 的 鸿 篇 巨著 ， 并 设计 了 TeX 排 版 系统 。 


一 个 鲜 为 人 知 的 事实 是 ，Knuth 教 授 的 第 一 个 作品 并 不 是 出 现在 位 高 名 盛 、 
视角 锐利 的 科学 期 刊 上 ， 而 是 刊登 于 一 个 更 为 大 众 化 的 杂志 上 。1957 年 6 月 ， 
Donald Knuth 的 The Potrzebie System of Weights and Measures 一 文 出 现在 第 33 
期 MAD Magazine 上 。 在 这 篇 文章 中 ， 这 位 后 来 成 为 杰出 计算 机 科学 家 的 Donald 
Knuth 拙 和 劣 地 模仿 了 当时 尚 属 新 鲜 事物 的 公制 度量 衡 系 统 。Knuth 随 后 的 大 部 分 文 
章 显 得 更 加 保守 。 我 们 对 此 感到 遗憾 ， 并 想 寻 求 它 的 根源 。Potrzebie 系 统 中 所 有 
度量 衡 的 基本 用 法 都 可 以 从 厚 厚 的 第 26 期 MAD Magazine 中 找到 。 


Knuth 的 文章 提倡 坚持 使 用 那些 MAD Magazine 读 者 更 为 熟悉 的 加 上 公制 单位 
的 十 进 制 前 级 的 非 公制 单位 ， 如 potrzebies、whatmeworrys 和 axolotls。 对 许多 MAD 
Magazine 的 读者 来 说 ，Knuth 的 文章 向 他 们 适度 地 介绍 了 公制 度量 衡 系 统 的 概念 。 
当时 美国 人 并 不 熟悉 kilo、centi 以 及 其 他 一 些 公制 前 级 ， 所 以 Knuth 的 Potrzebie 一 
文 为 人 们 理解 它们 铺 平 了 道路 。 如 果 Potrzebie 度 量 衡 系统 真 地 被 采纳 ， 也 许 后 来 
美国 的 公制 度量 衡 的 试行 会 更 成 功 。 


和 Potrzbie 系 统一 样 ， 关 于 程序 员 无 法 分 清 万 圣 节 和 圣诞 节 的 笑话 也 依赖 于 编 
号 系统 的 内 部 知识 。 程 序 员 无 法 分 清 万 圣 节 和 圣诞 节 的 原因 是 八进制 的 31 等 于 十 
进 制 的 25， 也 就 是 说 10 月 30 日 等 于 12 月 25 日 。 


我 给 Knuth 教 授 写 了 一 封 信 ， 并 附 上 本 章 的 手稿 ， 希 望 他 能 同意 我 引述 这 个 
故事 。 他 不 仅 表 示 同 意 ， 而 且 在 手稿 上 标注 了 许多 校对 和 改进 意见 ， 并 指出 程序 
员 也 无 法 把 11 月 27 日 同上 面 这 两 个 日 子 区 分 开 来 。 


本 章 精 选 了 一 些 类 似 的 也 是 依赖 于 编程 内 部 知识 的 C 语 言 习惯 用 法 。 部 分 例 
子 古 值得 一 试 的 有 用 提示 ， 男 外 一 些 则 是 提醒 你 避 开 麻烦 的 挫折 典故 。 我 们 从 一 
种 轻松 愉快 的 方法 开始 ， 使 图 标 代码 具有 自 描 述 能 


8.2 ”根据 位 模式 构筑 图 形 


图 标 (icon) 或 者 图 形 〈glyph) 是 一 种 小 型 的 位 模式 映射 于 屏幕 后 产生 的 图 
像 。 一 个 位 代表 图 像 上 的 一 个 像素 。 如 果 一 个 位 被 设置 ， 那 么 它 所 代表 的 像素 就 
是 “ 亮 ? 的 。 如 果 一 个 位 被 清除 ， 那 么 它 所 代表 的 像素 就 是 < 暗 的。 所 以 一 系列 的 
整数 值 能 够 用 于 为 图 像 编码 。 类 似 Iconedit 这 样 的 工具 用 来 绘制 图 形 ， 它 们 所 输出 
的 是 一 个 包含 一 系列 整 型 数 的 ASCII 文 件 ， 可 以 被 一 个 窗口 程序 所 包含 。 它 所 存 
在 的 问题 是 程序 中 的 图 标 只 是 一 串 十 六 进 制 数 。 在 C 语 言 中 ， 典 型 的 16 x 16 的 黑 
白 图 形 可 能 如 下 : 


static unsigned short stopwatch[] = { 
@x87C6, 
@x1FF7， 
6x383B， 
6Xx666C， 
6Xx666C， 
6XC666， 
exCe06, 
@xDF86, 
6xC166 ， 
6xC166 ， 
6x616C， 
6x616C， 
6x3838， 
6x1FF6， 
6Xx67C68， 
6Xx6666 
}; 


正如 所 看 到 的 那样 ， 这 些 C 语 言 常 量 并 未 提供 有 关 图 形 实际 模样 的 任何 线 
索 。 这 里 有 一 个 惊人 的 #define 定 义 的 优雅 集合 ， 人 允许 程 序 建 并 常量， 使 它们 看 上 
去 像 是 屏幕 上 的 图 形 。 


#define X )*2+1 
#define )*2 


#define s ((((((((((((((((@ /* 用 于 建立 16 位 宽 的 图 形 */ 


定义 了 它们 以 后 ， 只 要 画 所 需要 的 图 标 或 图 形 等 ， 程 序 会 自动 创建 它们 的 十 


六 进 制 模式 。 使 用 这 些 宏 定义 ， 程 序 的 自 描 述 能 力 大 大 加 强 ， 上 面 这 个 例子 可 以 
转变 为 : 


static unsigned short stopwatch[] = 

{ 
S: = XXXXX ___ XXX _， 
Ss___XXXXXXXXX XXX， 
Ss__XXX_____ XXX _ XX, 
SA XK 二 XX _ _， 
SA I XX _ _， 
SA A AAA XX _， 
SXX_ _ XX _， 
S X X XXXXX_ _ XX _ ， 
SA > XX _， 
SA Xe Ny XX _ ， 
Ss_XX____X____XX__， 
Si A XK 二 本 了 人 一 二 二 全 
Si A XX XXX ___， 
Ss___XXxXXXXXXXX____， 
Si /二 XXXXX_ _ 机 
二 

}; 


显然 ， 与 前 面 的 代码 相 比 ， 它 的 意思 更 为 明显 。 标 准 C 语 言 具 有 八进制 、 十 
进 制 和 十 六 进 制 第 量 ， 但 没有 二 进 制 常量 ， 否 则 倒是 一 种 更 为 简单 的 绘制 图 形 位 
模式 的 方法 。 


如 果 抓 住 书 的 右 下 角 ， 并 斜 着 看 上 一 页 ， 可 能 会 猜测 这 是 一 个 用 于 流行 窗口 
系统 的 “cursor busy” 小 秒表 图 形 。 我 是 在 几 年 前 从 Usenet comp.lang.c 新 闻 组 学 到 这 
个 技巧 的 。 


干 万 不 要 忘 了 在 绘图 结束 之 后 清除 这 些 宏 定义 ， 否 则 很 可 能 会 给 你 后 面 的 代 
码 带 来 不 可 预测 的 后 果 。 


8.3 ”在 等 竺 时 关 型 友 生 了 变化 


第 1 章 提 到 ， 当 操作 符 的 操作 数 类 型 不 一 致 时 会 发 生 类 型 转换 ， 这 被 称 为 “ 导 
党 算 术 转 换 *。 它 负责 把 两 个 不 同 的 操作 数 类 型 转换 成 同一 种 普通 类 型 ， 转 换 后 的 
< 


常 
类 型 一 般 也 就 是 结果 类 型 。 


C 语 言 中 的 类 型 转换 比 一 般 人 想象 中 的 要 广泛 得 多 。 在 涉及 类 型 小 于 int 或 
double 的 表达 式 中 ， 都 有 可 能 出 现 类 型 转换 。 以 下 面 的 代码 为 例 : 


printf(" %d ", sizeof ?A’); 


这 行 代码 打印 出 存储 一 个 字符 字面 值 类 型 的 长 度 。 你 敢 确定 它 的 结果 就 是 字 
符 的 长 度 ， 也 就 是 1 吗 ? 那 就 运行 一 下 代码 试 试 。 你 会 发 现 事 实 上 的 结果 是 4《〈 或 
者 是 你 机 器 上 int 的 长 度 ) 。 字 符 常 量 的 类 型 是 int， 根 据 提升 规则 ， 它 由 char 转 换 
为 int。 这 个 概念 在 K&R C 中 讲 得 过 于 简单 了 ， 它 在 第 39 页 是 这 样 描述 的 : 


在 表达 式 中 ， 每 个 char 都 被 转换 为 int...... 注 意 所 有 位 于 表达 式 中 的 float 都 被 
转换 为 double....….. 由 于 函数 参数 也 是 一 个 表达 式 ， 所 以 当 参 数 传递 给 函数 时 也 会 
发 生 类 型 转换 。 上 具体 地 说 ，char 和 short 转 换 为 int， 而 float 转 换 为 double。 


一 一 Jpe C Programming Language 


这 个 特性 被 称 为 类 型 提升 。 当 它 发 生 于 整 型 类 型 时 称 为 “ 整 型 提升 "。ANSI C 
延续 了 自动 类 型 提升 的 概念 ， 尽 管 在 许多 地 方 它 已 褪色 。 关 于 类 型 提升 ，ANSIC 
标准 有 如 下 说 明 : 


在 执行 下 列 代码 段 时 


char cl, c2; 
PA */ 


Cl = C1 + C2; 


“ 整 型 提升 ?规则 要 求 抽象 机 器 把 每 个 变量 的 值 提 升 为 int 的 长 度 ， 然 后 对 两 个 
int 值 执行 加 法 运算 ， 然 后 再 对 运算 结果 进行 裁剪 。 如 果 两 个 char 的 加 法 运算 结果 
不 会 发 生 湾 出 异常 ， 那 么 在 实际 执行 时 只 需要 产生 char 类 型 的 运算 结果 ， 可 以 省 


略 类 型 提升 。 


类 似 ， 在 下 列 代 码 段 中 


float f1, f2; 


如 果 编 译 器 可 以 确定 用 float 进 行 运算 的 结果 跟 转换 为 double 后 进行 运算 〈 例 
如 ，d 由 类 型 为 double 的 第 量 2.0 所 代 蔡 ) 的 结果 一 样 ， 那 么 也 可 以 使 用 float 来 进行 
乘法 运算 。 


一 ANST C 标 准 ， 第 5.1.2.3 节 


表 8-1 提 供 了 一 个 常见 类 型 提升 的 列表 。 它 们 可 以 出 现在 任何 表达 式 中 ， 并 不 
局 限于 涉及 操作 符 和 混合 类 型 操作 数 的 表达 式 。 


表 8-1 C 语 言 中 的 类 型 提升 


源 类 型 通常 提升 后 的 类 型 
char int 
位 段 (bit-field) int 
枚 举 (enum) int 
unsigned char int 


Short int 
unsigned Short int 
float double 
任何 数组 相应 类 型 的 指针 


整 型 提升 就 是 char、short int 和 位 段 类 型 〈 无 论 signed 或 unsigned) 以 及 枚 举 类 
型 将 被 提升 为 mnt， 前提 是 int 能 够 完整 地 容纳 原先 的 数据 ， 人 否则 将 被 转换 为 


unsigned int。ANSI C 提 到 ， 如 果 编 译 器 能 够 保证 运算 结果 一 致 ， 也 可 以 省 略 类 型 
提升 一 一 这 通常 出 现在 表达 式 中 存在 常量 操作 数 的 时 候 。 


软件 信条 


警惕 ! 真正 值得 的 注意 之 处 


参数 也 会 被 提升 ! 


男 一 个 会 发 生 隐 式 类 型 转换 的 地 方 就 是 参数 传递 。 在 K&R C 中 ， 由 于 函数 的 
参数 也 是 表达 式 ， 所 以 也 会 发 生 类 型 提升 。 在 ANSI C 中 ， 如 果 使 用 了 适当 的 函数 
原型 ， 类 型 提升 便 不 会 发 生 ， 否 则 也 会 发 生 。 在 被 调用 函数 的 内 部 ， 提 升 后 的 参 
数 被 裁减 为 原先 声明 的 大 小 。 


这 就 是 为 什么 单个 printf0 格 式 


符 字 串 %d 能 适用 于 几 个 不 同类 型 ， 如 Short、 
char 或 int， 而 不 论 实 际 传递 的 是 上 述 类 型 的 哪 一 个 。 函 数 从 堆栈 中 (或 寄存 器 
中 ) 取出 的 参数 总 是 int 类 型 ， 


并 在 printft* 或 其 他 被 调用 函数 里 按 统一 的 格式 处 
理 。 如 果 使 用 printf 来 打印 比 int 长 的 类 型 如 Sun OS 上 的 long long， 就 可 以 发 现 这 个 


效果 。 除 非 使 用 long long 格 式 化 限定 符 %1d， 人 否则 无 法 获得 正确 的 值 。 这 是 因为 在 
缺少 更 多 信息 的 情况 下 ，printf 假 定 它 所 处 理 的 数据 是 int 类 型 的 。 


C 语 言 中 的 类 型 转换 远 比 其 他 语言 更 为 常见 ， 其 他 语言 往往 将 类 型 转换 只 用 
于 操作 数 ， 使 操作 符 两 端的 数据 类 型 一 致 。C 语 言 也 执行 这 项 任务 ， 但 它 同时 也 
提升 比 规范 类 型 int 或 double 更 小 的 数据 类 型 (即使 它们 的 类 型 匹配 )。 在 隐 式 类 
型 转换 方面 ， 有 3 个 重要 的 地 方 需要 注意 。 


。 隐 式 类 型 转换 是 语言 中 的 一 种 临 机 手段 ， 起 源 于 简化 最 初 的 编译 器 的 想法 。 
把 所 有 的 操作 数 转换 为 统一 的 长 度 极 大 地 简化 了 代码 的 生成 。 这 样 ， 压 到 堆 
栈 中 的 参数 都 是 同一 长 度 的 ， 所 以 运行 时 系统 只 需要 知道 参数 的 数目 ， 而 不 
需要 知道 它们 的 长 度 。 把 所 有 的 浮 点 运算 都 以 double 精 度 进行 就 意味 着 PDP- 
11 能 够 简单 地 设置 为 double 运 算 模型 ， 它 只 管 按 double 精 度 执行 运算 ， 而 无 须 
顾及 操作 数 的 精度 。 

即使 不 理 奴 缺 省 的 类 型 转换 ， 也 可 以 用 C 语 言 进行 大 量 的 编程 工作 ， 许 多 C 程 
序 员 就 是 这 样 做 的 。 

。 在 理解 隐 式 类 型 转换 这 档 子 事 之 前 ， 不 能 称 自己 是 专家 级 C 程 序 员 。 隐 式 类 
型 转换 在 涉及 原型 的 上 下 文中 显得 非常 重要 ， 请 看 下 一 节 。 


8.4 原型 之 痛 


ANSI C 函 数 原 型 的 目的 是 使 C 语 言 成 为 一 种 更 加 可 靠 的 语言 。 建 立 原 型 就 是 
为 了 消除 一 种 普通 (但 很 难 发 现 ) 的 错误 ， 即 形 参 和 实 参 之 间 类 型 不 匹配 。 


ANSI C 的 函数 原型 就 是 采取 一 种 新 的 函数 声明 形式 ， 把 参数 的 类 型 也 包含 在 
声明 之 中 。 冰 数 的 定义 也 做 了 相应 的 改变 以 匹配 声明 。 这 样 ， 编 译 器 就 可 以 在 函 
数 的 声明 和 使 用 之 间 进 行 检查 。 为 了 更 好 地 记 住 两 者 的 区 别 ， 表 8-2 显 示 了 新 旧 两 
种 函数 声明 和 定义 的 形式 。 


表 8-2 ”K&R C 的 函数 声明 与 ANSI C 原 型 的 对 比 


K&RC 
声明 : int foo(int a, int b); 
int foo(); 或 
int foo(int, int); 

int foo(a, b) 定义 : 
int a; int foo(int a, int b) 
int b; 攻 
{ 

: j 
} 


注意 ，K&R C 的 函数 声明 与 ANSI C 的 函数 声明 (原型 ) 不 同 ，K&R C 的 函数 
定义 也 与 ANSI C 的 函数 定义 不 同 。 可 以 在 ANSI C 中 使 用 int foo(void); 这 样 的 形式 
来 表示 “没有 参数 ”"， 尺 管 它 看 上 去 与 传统 的 C 不 一 样 。 


然而 ，ANSI C 并 没有 也 不 可 能 排 它 性 地 使 用 函数 原型 ， 因 为 这 样 做 将 使 它 无 
法 兼容 数 以 十 亿 行 计 的 在 ANSI C 之 前 便 已 存在 的 C 代 码 。 标 准 并 没有 规定 在 函数 
声明 中 使 用 空 括 号 〈 即 未 指定 参数 ) 是 被 正式 废弃 的 ， 也 没有 说 明 继 续 使 用 这 种 
形式 会 导致 与 标准 的 未 来 版 本 不 兼容 。 在 可 以 预见 的 将 来 ， 两 种 风格 将 会 并 存 ， 
原因 就 在 于 现存 的 大 量 旧 式 代 码 。 所 以 ， 如 果 说 原型 是 个 "好 东西 >， 那 么 我 们 是 
不 是 应 该 到 处 都 使 用 它 ， 并 在 维护 旧式 代码 时 为 它们 增加 函数 原型 呢 ? 绝 非 如 
此 ! 


函数 原型 不 仅 改 变 了 C 语 言 的 语法 ， 而 且 引 入 了 一 种 微妙 的 语义 区 别 〈 不 是 
人 们 所 希望 的 ) 。 从 前 面 一 节 中 得 知 ， 在 K&R C 中 ， 如 果 向 函数 传递 一 个 短 于 int 
的 整数 ， 函 数 实际 所 接收 到 的 是 int， 如 果 传递 的 是 一 个 float， 函 数 实际 接收 到 的 
是 double。 在 被 调用 函数 的 函数 体内 ， 这 些 值 会 根据 函数 定义 时 参数 的 声明 类 型 
自动 裁 筋 为 该 类 型 。 


此 时 ， 你 可 能 会 感到 困惑 ， 为 什么 要 不 嫌 麻 烦 地 将 它们 提升 为 更 大 的 类 型 ， 
然后 又 直接 把 它们 裁剪 为 原来 的 大 小 呢 ? 之 所 以 要 这 样 做 ， 原 意 是 为 了 简化 编译 
器 一 一 所 有 的 东西 都 是 同一 长 度 。 如 果 只 固定 使 用 几 种 类 型 ， 将 大 大 简化 参数 的 
传递 ， 尤 其 是 在 非常 老式 的 K&R C 编 译 器 中 不 能 传递 struct 作 为 参数 ) 。 这 种 编 
译 器 只 允许 3 种 类 型 作为 参数 : int、double 和 指针 。 所 有 的 参数 都 统一 为 标准 长 
度 ， 被 调用 函 数 会 根据 需要 对 它们 进行 裁剪 。 


相反 ， 如 果 使 用 了 函数 原型 ， 缺 省 参数 提升 就 不 会 发 生 。 如 果 参 数 声明 为 
char， 则 实际 所 传递 的 也 是 char。 如 果 使 用 新 风格 的 函数 定义 《在 函数 名 后 面 的 括 
号 内 给 出 参数 类 型 ) ， 编 译 器 就 会 假定 参数 是 准确 声明 的 ， 于 是 便 不 进行 类 型 提 
升 ， 并 据 此 产生 代码 。 


8.5 原型 在 什么 地 方 会 失败 
我 们 需要 考虑 4 种 情况 。 
1. K&R C 函 数 声明 和 开 &R C 函 数 定义 
能 够 顺利 调用 ， 所 传递 的 参数 会 进行 类 型 提升 。 
2. ANSI C 函 数 声明 〈 原 型 ) 和 ANSI C 函 数 定义 
能 够 顺利 调用 ， 所 传递 的 参数 为 实际 参数 。 
3. ANSI C 函 数 声 明 ( 原 型》 和 K&R C 函 数 定义 


型 就 会 失败 ! 函数 调用 时 所 传递 的 是 实际 类 型 ， 而 函 
刑 


4. K&R C 函 数 声 明和 ANSI C 函 数 定义 


如 果 使 用 一 个 较 窄 的 类 型 就 会 失败 ! 函数 调用 时 所 传递 的 是 提升 后 的 类 型 ， 
而 函数 期 望 接收 的 是 实际 类 型 。 


所 以 ， 如 果 为 一 个 K&R C 函 数 定义 增加 函数 原型 ， 而 原型 的 参数 列表 中 有 一 
个 Short 参数， 在 参数 传递 时 ， 这 个 原型 将 导致 实际 传递 给 函数 的 就 是 short 类 型 的 
参数 ， 而 根据 函数 的 定义 ， 它 期 望 接收 的 是 一 个 int 类 型 的 参数 。 这 样 ， 函 数 从 堆 
栈 中 抓 取 4 字 节 (int) 而 不 是 2 字 节 (short) 。 如 此 一 来 ， 不 幸 与 short 参 数 靠 在 一 
起 的 那 2 字 节 便 无 齐 地 成 了 垃圾 的 制造 者 。 可 以 通过 在 原型 中 强迫 使 用 宽 类 型 ， 
从 而 使 代码 在 第 3、4 两 种 情况 下 仍 能 正常 运作 。 但 这 种 做 法 不 仅 背 离 了 可 移植 性 
原则 ， 而 且 会 给 维护 代码 的 程序 员 辜 来 困惑 。 下 面 的 例子 显示 了 两 种 失败 的 情 
讽 ， 


文件 1 


/* 风格 的 函数 定义 ， 但 它 却 具有 原型 */ 
olddef(d, i) 

float d; 

char i; 


{ 
printf("olddef: float = %f, char = %x \n", d, i); 
} 


/* ”新 风格 的 定义 ， 但 它 却 没有 原型 ”*/ 
newdef(float d, char i) 


printf("newdef: float = %f, char = %x \n", d, i); 
} 


文件 2 


/* ” 旧 风 格 的 定义 ， 但 它 具 有 原型 ”*/ 
int olddef(float d, char i); 
main() { 

float d = 16.6; 

char j = 3; 


olddef(d, j); 


/* ”新 风格 的 定义 ， 但 它 没有 原型 */ 
newdef(d, j); 


} 

期 望 的 输出 结果 : 
olddef: float = 16.6, char = 3 
newdef: float = 16.06, char = 3 


实际 的 输出 结 


olddef: float 
newdef: float 


524288.666666，char = 4 
2.562500，char = 6 


注意 ， 如 果 把 函数 的 定义 放 在 它们 被 调用 的 同一 个 文件 内 《这 里 是 文件 
2) ， 程 序 的 行为 就 会 不 一 样 。 编 译 器 将 会 检测 到 olddefO 的 不 匹配 ， 因 为 它 现在 
可 以 同时 看 到 原型 和 K&R C 的 函数 定义 。 如 果 把 newdef() 的 定义 放 在 它 被 调用 之 


前 ， 编 译 器 束 会 平静 地 执行 正确 的 操作 ， 因 为 此 时 函数 的 定义 束 相 当 于 原型 ， 它 
保证 了 声明 和 定义 的 一 致 性 。 如 果 把 函数 的 定义 放 在 它 被 调用 之 后 ， 编 译 器 就 会 
发 出 “类 型 不 匹配 ?的 错误 信息 。 由 于 C++ 要 求 所 有 函数 必须 具备 原型 ， 你 可 能 会 
想 用 C++ 编译 器 去 编译 那些 旧式 的 K&R C 代 码 ， 在 编译 器 发 出 错误 信息 的 地 方 逐 
个 为 函数 添加 原型 。 


编程 挑战 
如 何 使 原型 失败 


尝试 几 个 例子 ， 和 弄 清楚 这 里 涉及 的 内 容 。 在 一 个 独立 的 文件 里 创建 下 列 函 
数 : 


void banana peel(char a, short b, float c) 


printf("char = %c, short = %d, float = %f \n", a, b, c); 


在 另 一 个 独立 的 文件 里 ， 建 立 调用 banana_peel0 的 主 程序 。 


1. 试 试 在 使 用 原型 和 不 使 用 原型 这 两 种 情况 下 调用 它 ， 再 试 试 在 原型 和 定 
义 不 匹 配 的 情况 下 调用 它 。 


2. 在 每 种 情况 下 ， 在 运行 代码 之 前 预测 结果 。 编 写 一 个 union， 你 可 以 向 它 
存储 一 个 值 却 取 回 另 一 个 值 〈 两 个 值 的 长 度 不 同 ) ,检测 你 的 预测 是 否 正确 。 


3. 参数 次 序 的 改变 〈 在 函数 的 声明 和 定义 中 ) 是 否 会 影响 被 调用 函数 接收 
参数 的 方式 ? 解释 其 中 的 原因 。 你 的 编译 器 捕捉 到 多 少 种 错误 情况 ? 


早 些 时 候 我 曾 提 到 原型 允许 编译 器 检查 函数 使 用 和 声明 之 间 的 一 致 性 。 即 使 
不 曾 把 旧 风格 与 新 风格 混合 起 来 ， 这 个 用 途 也 绝 不 会 没有 用 武之 地 ， 因 为 谁 也 无 
法 保证 函数 的 原型 肯定 与 对 应 的 定义 匹配 。 在 实际 编程 中 ， 我 们 通过 把 函数 原型 
放置 在 头 文 件 中 ， 而 把 函数 的 定义 放置 在 另 一 个 包含 了 该 头 文 件 的 源 文 件 中 来 防 
止 这 种 情况 的 有 发生。 编译 器 能 同时 发 现 它们 ， 如 有 不 匹配 就 能 检测 到 。 如 果 程 序 
员 不 这 样 做 ， 烦恼 很 快 就 会 回 他 认 来 。 


小 局 发 


不 要 在 函数 的 声明 和 定义 中 混用 新 旧 两 种 风格 


坚决 不 要 在 函数 的 声明 和 定义 中 混用 新 旧 两 种 风格 。 如 果 函 数 在 头 文件 里 的 
声明 是 K&R C 风 格 的 ， 那 么 该 函数 的 定义 也 应 该 使 用 K&R C 风 格 的 语法 。 


int foo() int foo(a, b) int a; int by 4 A “A 


如 果 函 数 具 有 ANSI C 原 型， 那么 在 它 的 定义 中 也 使 用 ANSI C 风 格 的 语法 。 


int foo(int a, int b); int foo(int a, int b) { /+* ... */ } 


可 以 建立 一 种 可 靠 的 机 制 来 检查 跨越 多 个 文件 的 函数 调用 。 在 printf 这 种 参数 
数目 不 定 的 函数 中 需要 使 用 特别 的 技巧 〈 当 前 就 是 如 此 ) 。 它 甚至 可 以 应 用 于 现 
存 的 语法 。 它 所 需要 的 就 是 在 标准 中 规定 每 次 调用 函数 时 必须 在 参数 名 字 、 数 


量 、 类 型 以 及 函数 的 返回 类 型 上 与 函数 的 定义 保持 一 致 。 这 种 “预防 艺术 ”确实 存 
在 ，Ada 语 言 就 是 这 样 做 的 。C 语 言 也 可 以 使 用 这 种 方法 ， 不 过 需要 在 链接 器 之 前 
进行 一 个 额外 的 传递 〈 重 要 提示 : 使 用 lint 程 序 ) 。 


在 实践 中 ，ANSI C 委 员 会 的 成 员 在 扩展 C 语 言 方面 相当 庆 慎 一 一 或 许 有 些 保 
守 了 。Rationale 中 记录 了 他 们 为 “是 否 应 该 去 除 现 有 的 外 部 名 字 只 有 前 6 个 字符 才 
有 意义 并 且 大 小 写 不 敏感 的 限制 ?而 痛苦 不 安 的 情形 。 最 后 ， 他 们 决定 不 去 除 这 个 
限制 ， 这 使 得 一 些 语言 专家 觉得 他 们 多 少 有 些 软弱 。 或 许 ANSI C 委 员 会 在 这 方面 
也 应 该 做 一 看 努力 ， 规 定 一 个 完整 的 解析 过 程 ， 即 使 它 在 链接 器 之 前 需要 进行 一 
次 传递 。 应 该 放弃 C++ 那 种 烦琐 的 部 分 解析 过 程 ， 并 且 规定 自己 的 约定 、 语 法 、 
语义 和 限制 。 


8.6 ”不 需要 按 回 车 键 就 能 得 到 一 个 字符 


MS-DOS 程 序 员 在 转 到 UNIX 系 统 之 后 最 先 提出 的 一 个 问题 就 是 “我 如 何在 不 
按 一 下 回 车 的 情况 下 从 终端 读 取 一 个 字符 ? ”在 UNIX 中 ， 终 端 输入 在 缺 省 情况 下 
是 被 “一 锅 端 ”的 ， 也 就 是 说 整 行 输入 是 被 一 起 处 理 的 ， 这 样 行 编辑 字符 
(backspace、delete 等 ) 可 以 不 通过 正在 运行 的 程序 就 能 发 挥 作 用 。 通 常 ， 这 是 
一 种 人 们 所 希望 的 便捷 办 法 ， 但 它 也 意味 着 在 读 入 数据 时 必须 按 一 下 回 车 键 表示 
输入 行 结束 后 才能 得 到 输入 的 数据 。 这 种 方法 对 于 整 行 整 行 的 输入 是 非常 有 效 
的 ， 但 有 些 程序 需要 在 每 按 一 键 之 后 就 得 到 这 个 字符 ， 这 就 有 些 不 便 了 。 


这 个 “一 次 输入 一 个 字符 ”的 特性 对 于 许多 种 类 的 软件 来 说 都 是 非常 重要 的 ， 
但 对 于 PC 而 言 却 是 小 菜 一 碟 。C 函 数 库 文 持 这 个 特性 ， 通 党 使 用 一 个 称 作 kbhit() 
的 函数 ， 如 果 一 个 字符 正在 等 待 被 读 取 ， 它 束 会 发 出 提示 。Micorsoft 和 Borland 的 
C 编 译 器 提供 了 getchO 《或 getche0， 它 可 以 使 字符 在 读 取 的 同时 回 显 到 屏幕 上 ) 
来 获取 单个 字符 ， 而 不 用 等 待 整 行 结束 。 


人 们 经 党 感 到 疑问 ， 为 什么 ANSI C 不 定义 一 个 标准 的 函数 来 获取 一 次 按键 后 
的 字符 。 由 于 没有 一 种 标准 的 方法 ， 每 个 系统 都 采用 了 不 同 的 方法 ， 这 样 便 使 程 
序 失 去 了 可 移植 性 。 反 对 将 kbhit0 纳 入 标准 的 人 认为 : 它 在 绝 大 多 数 情 况 下 是 用 
于 游戏 软件 的 ， 而 且 还 存在 其 他 许多 未 标准 化 的 终端 VO 特性 。 男 外 ， 你 可 能 并 不 
想 要 一 个 在 茶 些 操作 系统 中 很 难 实现 的 标准 库 函 数 。 赞 成 它 纳 入 标准 的 人 则 认 
为 : 它 在 绝 大 多 数 情况 下 用 于 游戏 软件 ， 而 游戏 编写 者 并 不 需要 很 多 的 需要 标准 
化 的 其 他 终端 VO 特 性 。 不 论 你 文 持 哪个 观点 ， 事 实 上 X3J11 小 组 还 是 错过 了 一 个 
使 C 语 言 成 为 一 代 学 生 程 序 员 在 UNIX 上 编写 游戏 的 一 种 选择 的 机 会 〈 就 是 未 吸纳 
这 个 特性 ) 。 


小 启发 
老板 键 


游戏 软件 比 一 般 人 想象 的 要 重要 得 多 。Microsoft 意 识 到 了 这 一 点 ， 经 过 深思 
熟 虑 之 后 ， 它 们 在 所 有 的 游戏 软件 中 提供 了 一 个 “老板 键 >。 当 你 用 眼角 的 余 光 扫 
描 到 老板 正 悄 悄 迫 近 时 ， 只 要 一 按 老 板 键 ， 游 戏 瞬 间 即 会 消失 。 当 老板 走 到 你 的 
终端 时 ， 你 好 像 正在 聚精会神 地 工作 一 般 。 我 们 仍 在 寻找 一 种 老板 键 ， 它 可 以 使 
MS-Windows 骨 溃 ， 露 出 它 底层 那 套 真实 的 窗口 系统 .…….D] 


在 UNIX 中 ， 有 两 种 方法 可 以 实现 逐 字符 的 输入 ， 一 种 很 难 ， 忆 一 种 很 容 
易 。 容 易 的 方法 就 是 让 stty 程 序 来 实现 这 个 功能 。 尽 管 它 是 一 种 间接 实现 的 方法 ， 
但 对 程序 而 言 并 无 大 碍 。 


#include <stdio.h> 
main() 
{ 


int c; 


/* 终端 驱动 处 于 普通 的 一 次 一 行 模式 *#/ 
system("stty raw"); 


/* 现在 终端 驱动 处 于 一 次 一 字符 模式 */ 
c= getchar( ) ; 


System("stty cooked"); 
/* 终端 驱动 又 回 到 一 次 一 行 模式 *#/ 
} 


最 后 一 行 system("stty cooked"); 是 必要 的 ， 因 为 程序 结束 后 ， 终 端 字符 驱动 特 
性 的 状态 将 延续 下 去 。 在 程序 把 终端 设 为 一 种 滑稽 的 模式 之 后 ， 如 果 不 作 修改 ， 
它 就 会 始终 处 于 这 种 模式 。 这 和 设置 环境 变量 明显 不 同 ， 后 者 在 进程 结束 后 自动 


消失 。 


把 IO 设置 为 raw 状 态 可 以 实现 阻塞 式 读 入 〈blocking read) ， 如 果 终 端 没 有 字 
符 输 入 ， 进 程 就 一 直 等 待 ， 直 到 有 字符 输入 为 止 。 如 果 需 要 非 阻 塞 式 恋 入 ， 可 以 
使 用 iocdO (VO 控制 》 系统 调用 。 它 提供 一 个 针对 终端 特性 的 民 好 控制 层 ， 可 以 

告诉 你 在 SVr4 系 统 下 是 否 有 一 个 键 被 按 下 。 下 面 的 代码 使 用 了 ioctl()， 这 样 只 有 

当 一 个 字符 等 待 被 读 入 时 进程 才 进 行 读 取 。 这 种 类 型 的 MO 被 称 为 轮 询 ， 就 好 像 你 
不 断 地 询问 设备 的 状态 ， 看 看 它 是 否 有 字符 要 传 给 你 。 


#include <sys/filio.h> 
int kbhit() 
{ 
int i; 
ioct1(86，FIONREAD，&i); 
return ij;  /* 返回 可 以 读 取 的 字符 的 计数 值 */ 
} 


main() 


int i 
int c 2 


中 由 
-> 


system("stty raw -echo"); 
printf("enter ’q’ to quit \n"); 
for(; c != ”q’; i++){ 
if(kbhit()) { 
c = getchar(); 
printf("\n got %c, on iteration %d", c, i); 


} 


system("stty cooked echo"); 


小 启发 


调用 库 函 数 之 后 检查 errno 


每 次 在 使 用 系统 调用 〈 如 ioctt0) 之 后 ， 检 查 一 下 全 局 变量 errmo 是 一 种 好 的 
做 法 ，errno 隶 属于 ANSI C 标 准 。 


如 果 一 个 库 函 数 调 用 或 系统 调用 遇 到 了 问题 ， 它 将 会 设置 ermo 的 值 以 提示 问 
题 的 原因 。 然 而 ， 只 有 当 确 实 出 现 问 题 的 时 候 ，ermo 的 值 才 是 有 效 的 一 一 库 函 数 
或 系统 调用 会 使 用 某 种 方法 来 提示 这 一 点 (一 般 是 通过 它 的 返回 值 〉。 


一 个 典型 的 用 法 大 致 如 下 : 


errno = 0; 
if(ioct1(86，FIONREAD，&i) < 6) 
{ 


if(errno == EBADF) printf("errno: bad file number"); 
if(errno == EINVAL) printf("errno: invalid argument");} 


你 可 以 按 自 己 的 喜好 尽 可 地 做 得 花哨 一 些 ， 并 把 检查 过 程 封装 在 一 个 单一 的 
函数 中 ， 当 调试 程序 时 它 会 在 每 次 系统 调用 之 后 自行 调用 。 这 个 方法 在 隔离 错误 
方面 确实 大 有 帮助 。 当 你 知道 确 有 错误 发 生 时 ， 库 函数 perror0O 可 以 打印 出 错误 信 
万 | 


4 O 


如 果 你 对 这 种 单字 符 MO 感 兴趣 ， 应 该 也 会 对 另外 一 些 显示 控制 感 兴趣 。 
curses 函 数 库 为 它们 提供 了 各 种 不 同 的 可 移植 的 程序 。curses《〈《 令 人 联想 到 
cursor [光标 ]】) 是 一 个 屏幕 管理 调用 函数 库 ， 在 所 有 流行 的 平台 上 均 得 到 实 
现 。 下 面 使 用 curses 取 代 stty 对 上 面 的 main 函 数 进行 改写 : 


#include <curses.hy> 
/* 使 用 curses 函 数 库 和 前 面 定义 的 kbhit() 函 数 */ 
main() 


{ 


int c=’”’”, i= 0; 


initscr(); /* 初始 化 curses 函 数 */ 
cbreak(); 
noecho(); /* 按键 时 不 在 屏幕 上 回 显 字符 */ 


mvprintw(86，68， "Press ’q’ to quit\n"); 


refresh(); 


while(c != ”q’) 

if(kbhit()){ 
c = getch(); /* 不 会 阻塞 ， 因 为 我 们 知道 有 一 个 字符 正在 等 待 、*/ 
mvprintw(1, 0, "got char ’%c’ on iteration %d \n", c, ++i); 
refresh(); 


} 


nocbreak() : 
echo(); 
endwin(); /* 结束 curses */ 


用 cc foo.c -lcruses 命 令 进行 编译 。 你 应 该 注意 到 在 使 用 了 curses 之 后 ， 输 出 结 
果 非 常 清晰 。 有 一 本 叫 作 UNIX Cruses Explained 的 好 书 ， 它 很 好 地 描述 了 curses 函 
数 库 。curses 函 数 库 只 提供 了 基于 字符 的 屏幕 控制 函数 。 与 特定 的 位 映射 图 形 窗 
口 化 函数 库 相 比 ， 用 curses 函 数 库 编写 的 软件 在 数量 上 要 少 得 多 ， 但 用 它 编写 的 
软件 在 可 移植 性 方面 却 要 强 得 多 。 


最 后 ， 还 存在 一 种 非 轮 询 读 取 方 式 ， 每 当 操 作 系 统 准 备 好 一 些 输入 时 ， 就 会 
给 你 的 进程 发 送 一 个 信号。 


如 果 程 序 使 用 了 中 断 驱 动 的 HJO， 当 它 不 处 理 输入 时 可 以 在 main 函 数 里 执行 一 
些 其 他 的 处 理 。 如 果 输 入 比较 零散 且 程 序 还 有 许多 其 他 事务 要 处 理 ， 这 是 一 种 非 
常 有 效 的 资源 使 用 方式 。 中 断 驱 动 程序 要 复杂 得 多 ， 使 它 正常 运转 的 难度 也 大 得 
多 ， 但 它 可 以 使 进程 更 有 效 地 使 用 CPU 时 间 ， 而 不 是 白白 浪费 时 间 一 直 等 竺 输 
入 。 现 在 ， 随 着 线程 的 进一步 使 用 ， 人 们 对 中 断 驱 动 VO 的 使 用 也 日 益 减少 。 


编程 挑战 


在 你 的 系统 中 编写 一 个 中 断 驱 动 的 输入 程序 


中 断 驱 动 的 输入 是 MS-DOS 中 令 人 耳 日 清新 之 处 。 系 统 提供 了 这 些 简 杆 的 服 
务 ， 你 很 容易 把 它们 扔 到 一 边 ， 直 接 从 IO 端口 采集 字符 。 在 SVr4 中 ， 需 要 做 下 列 
国民 (= 


1. 创建 一 个 信号 处 理 程序 函数 ， 当 操作 系统 发 送 “ 字 符 已 经 就 绪 ? 的 信号 后 ， 
它 就 被 调用 以 读 取 该 字符 。 这 个 需要 捕捉 的 信号 是 SIGPOLL。 


2， 信 号 处 理 程序 应 该 读 入 一 个 字符 ， 它 每 次 被 调用 时 都 对 自身 进行 重 置 。 
让 它 在 屏幕 上 回 显 刚 读 取 的 字符 ， 如 果 读 入 的 字符 是 q 就 退出 。 注 意 ， 这 仅 适用 
于 教学 性 质 的 程序 。 在 实际 工作 中 ， 如 果 在 信号 处 理 程序 内 调用 了 任何 标准 函数 
库 的 函数 ， 其 结果 通常 是 未 定义 的 。 


3. 调用 ioct0， 通 知 操作 系统 每 次 从 标准 输入 时 需要 向 你 发 送 一 个 信号 。 查 
看 streamio 的 手册 页 ， 你 将 需要 一 个 L SETSIG 命 令 ， 参 数 为 S RDNORM。 


4. 在 信号 处 理 程序 建立 后 ， 程 序 可 以 做 其 他 的 事 ， 直 到 输入 到 达 。 为 输入 
设置 一 个 计数 器 ， 在 处 理 程序 函数 中 打印 出 计数 器 的 值 。 


每 当 通 过 键盘 发 送 字符 时 ，SIGPOLL 信 和 号 会 发 送 到 进程 中 。 信 和 号 处 理 程序 将 


8.7 用 C 语 言 实 现 有 限 状态 机 


有 限 状态 机 (Finite State Machine，EFSM) 是 一 个 数学 概念 ， 如 果 把 它 运 用 于 
程序 中 ， 可 以 发 挥 很 大 的 作用 。 它 是 一 种 协议 ， 用 于 有 限 数量 的 子 程序 〈 状 态 ) 
的 发 展 变 化 。 每 个 子 程序 进行 一 些 处 理 并 选择 下 一 种 状态 〈 通 常 取 决 于 下 一 段 输 
A 


FSM 可 以 用 作 程序 的 控制 结构 。FSM 对 于 那些 以 输入 为 基础 ， 在 几 个 不 同 的 
可 选 动作 中 进行 循环 的 程序 尤其 合适 。 投 币 售 货 机 就 是 一 个 FSM 的 好 例子 ， 它 具 
有 “接受 人 硬币 ”选择 商品 ”发送 商 品 *" 和 “ 找 零钱 ”等 数 种 状态 。 它 的 输入 是 硬币 ， 
输出 是 待 售 商 品 。 


它 的 基本 思路 是 用 一 张 表 保 存 所 有 可 能 的 状态 ， 并 列 出 进入 每 个 状态 时 可 能 
执行 的 所 有 动作 ， 其 中 最 后 一 个 动作 就 是 计算 (通常 在 当前 状态 和 下 一 次 输入 字 
符 的 基础 上 ， 另 外 再 经 过 一 次 表 碍 询 ) 下 一 个 应 该 进入 的 状态 。 你 从 一 个 “初始 状 
态 ” 开 始 。 在 这 一 过 程 中 ， 翻 译 表 可 能 会 告诉 你 进入 了 一 个 错误 的 状态 ， 表 示 一 个 
预期 之 外 的 或 错误 的 输入 。 你 不 停 地 在 各 种 状态 间 进 行 转换 ， 直 到 到 达 结 束 状 


太 


JU oO 


在 C 语 言 中 ， 有 好 儿 种 方法 可 以 用 来 表达 FSM， 但 它们 绝 大 多 数 都 是 基于 函 
数 指针 数组 。 一 个 函数 指针 数组 可 以 像 下 面 这 样 声 明 : 


void (*state[MAX STATES])(); 


如 果 知 道 了 函数 名 ， 就 可 以 像 下 面 这 样 对 数组 进行 初始 化 : 


extern int a(), b(), c(), d(); 
int (*state[])() = { a, b, c, d} 


可 以 通过 数组 中 的 指针 来 调用 函数 : 


(*state[i])(); 


所 有 的 函数 必须 接受 同样 的 参数 ， 并 返回 同 种 类 型 的 返回 值 〈 除 非 把 数组 元 
素 做 成 一 个 联合 ) 。 函 数 指针 是 很 有 趣 的。 注意 ， 我 们 甚至 可 以 去 掉 指 针 形 式 ， 


把 上 面 的 调用 写成 : 


state[i](); 


甚至 是 : 


(+*##yySstate[i])( ); 


这 是 一 个 在 ANSI C 中 流行 的 不 良 方法 : 调用 函数 和 通过 指针 调用 函数 (或 任 
意 层次 的 指针 间接 引用 〉 可 以 使 用 同一 种 语法 。 ee 也 有 一 个 对 应 的 方 
法 。 这 种 做 法 进一步 恶化 了 本 来 就 有 人 缺陷 的 “声明 与 使 用 相似 ”的 设计 哲学 。 


编程 挑战 


编写 一 个 FSM 程 序 


用 有 限 状 态 机 实现 第 3 章 所 描述 的 C 语 言 声明 分 析 器 《〈 见 图 3-1) 。 


1. 用 状态 机 图 的 方法 为 其 编写 程序 ， 也 许可 以 通过 修改 第 3 章 曾 经 写 过 的 
cdecl 程 序 来 实现 〈 你 应 该 写 过 这 个 程序 ， 是 不 是 


2 首先， 编写 代码 来 控制 状态 的 转换 。 让 每 个 动作 程序 简单 打印 一 条 信 
恩 ， 显 示 它 已 被 调用 。 然 后 ， 对 它 进入 深入 的 调试 。 


3. 增加 代码 ， 处 理 并 分 析 输 入 的 声明 。 


分 析 环 是 一 个 简单 的 状态 机 ， 它 的 绝 大 多 数 状 态 转换 都 是 按 连 续 的 顺序 进行 
的 ， 与 输入 无 关 。 这 意味 着 不 需要 建立 一 个 转换 表 用 于 匹配 状态 /输入 以 获得 下 一 
个 状态 。 你 可 以 用 一 个 简单 的 变量 (类 型 为 函数 指针 ) 。 在 每 种 状态 下 ， 需 要 做 
的 一 件 事情 就 是 给 下 一 个 状态 赋值 。 在 主 循 环 中 ， 程 序 将 调用 指针 所 指向 的 函 
数 ， 并 循环 往复 ， 直 到 结束 函数 调用 或 遇 到 一 个 错误 的 状态 。 


基于 FSM 的 程序 和 不 是 基于 FSM 的 程序 在 易 编码 性 和 调试 方面 该 如 何 比较 ? 
是 根据 哪 种 程序 更 易于 增加 一 个 不 同 的 动作 ， 还 是 根据 哪 种 程序 更 易于 修改 动作 
出 现 的 次 序 ? 


如 果 想 干 得 漂亮 一 点 ， 可 以 让 状态 函数 返回 一 个 指 癌 通 用 后 续 函 数 的 指针 ， 
并 把 它 转换 为 适当 的 类 型 。 这 样 ， 就 不 需要 全 局 变量 了 。 如 果 不 想 摘 得 太 花 哨 ， 
可 以 使 用 一 个 switch 语 句 作 为 一 种 简朴 的 状态 机 ， 方 法 是 赋值 给 控制 变量 并 把 
switch 语 句 放 在 循环 内 部 。 关 于 FSM 还 有 最 后 一 点 需要 说 明 : 如 果 你 的 状态 函数 
看 上 去 需要 多 个 不 同 的 参数 ， 可 以 考虑 使 用 一 个 参数 计数 器 和 一 个 字符 串 指 针 数 
组 ， 就 像 main 函 数 的 参数 一 样 。 我 们 熟悉 的 int argc、char *argv[] 机 制 是 非常 普遍 
的 ， 可 以 成 功 地 应 用 在 你 所 定义 的 函数 中 。 


8.8 软件 比 硬件 更 困难 


你 是 否 觉得 软件 和 硬件 的 名 字 和 弄 反 了 一 一 软件 很 容易 修改 ， 但 在 其 他 的 各 个 
方面 都 比 硬件 显得 更 困难 和 内? 因为 软件 是 如 此 难于 开发 并 获得 正确 的 结果 ， 作 为 


程序 员 ， 我 们 需要 找到 尽 可 能 容易 的 方法 。 其 中 一 种 方法 (适用 于 所 有 语言 ， 并 
不 限于 C 语 言 ) 就 是 使 代码 便于 调试 。 当 你 编写 程序 时 ， 提 供 debugging hook。 


小 启发 

debugging hook 

你 知 不 知道 绝 大 多 数 调 试 器 都 允许 从 调试 器 命令 行 调用 函数 ? 如 果 你 拥有 十 
分 复杂 的 数据 结构 ， 它 将 会 非常 有 用 。 你 可 以 编写 并 编译 一 个 函数 ， 用 于 裔 历 整 


个 数据 结构 并 把 它 打 印 出 来 。 这 个 函数 不 会 在 代码 的 任何 地 方 被 调用 ， 但 它 却 是 
可 执行 文件 的 一 部 分 。 它 就 是 debugging hook。 


当 调试 代码 并 停 在 茶 个 断 点 时 ， 你 可 以 很 容易 地 通过 手工 调用 你 的 打印 函数 
来 检查 数据 结构 的 完整 性 。 如 果 你 曾 试 过 这 种 方法 ， 就 会 把 它 一 直 牢 记 在 心 ， 否 
则 它 很 可 能 被 埋没 。 


在 上 一 节 ， 我 们 已 经 提示 了 可 调试 性 编码 。 建 议 在 为 FSM 编 写 代码 时 使 用 两 
个 明显 的 阶段 : 首先 进行 状态 转换 ， 并 只 有 当 它 们 处 于 工作 状态 时 才 提 供 动作 。 
不 要 把 增 量 开 发 〈incremental development) 和 显 式 代码 调试 (debugging code into 


existence) 混为一谈 ， 后 者 是 程序 员 新 手 或 那些 开发 时 间 非 常 紧 的 程序 员 第 向 采 
用 的 一 种 技巧 。 显 式 代码 调试 就 是 首先 仓促 地 编写 一 个 程序 框架 ， 然 后 在 接 下 来 
几 周 的 时 间 里 通过 修改 无 法 运行 的 部 分 对 程序 进行 连续 的 完善 ， 直 到 程序 能 够 工 
作 。 同 时 ， 任 何人 如 果 要 依赖 系统 组 件 ， 可 能 会 急 得 及 疡 。Sendmail 和 make 是 两 
个 广为人知 的 被 认为 原先 是 显 式 代码 调试 的 程序 。 这 就 是 为 什么 它们 的 命令 语言 
是 如 此 地 考虑 不 周 和 难 于 学 习 。 并 不 仅仅 是 你 认为 这 样 ， 所 有 人 都 觉得 它们 很 麻 
烦 。 


可 调试 性 编码 意味 着 把 系统 分 成 几 个 部 分 ， 先 让 程序 总 体 结构 运行 。 只 有 基 
本 的 程序 能 够 运行 之 后 ， 你 才 为 那些 复杂 的 细节 完善 、 性 能 调整 和 算法 优化 进行 
编码 。 


小 启发 


华丽 的 散 列 表 


散 列 〈Hash) 表 是 一 种 提高 访问 表 中 数据 元 系 的 方法 。 它 不 是 线性 地 搜索 表 
中 的 元 素 ， 而 是 一 下 子 跳 到 最 相像 的 元 素来 存储 值 。 


这 是 通过 精心 地 向 表 载 入 元 素来 实现 的 。 它 并 不 是 按照 线性 顺序 ， 而 是 应 用 
东 种 形式 的 转换 《〈 称 为 散 列 函数 ) ， 把 数据 值 和 存储 它 的 位 置 联系 起 来 。 散 列 函 
数 会 产生 一 个 范围 为 0 一 表 的 长 度 减 1 的 值 ， 它 就 是 所 需要 存储 的 数据 的 索引 。 


如 果 这 个 位 置 已 经 被 别 的 元 素 占领 ， 那 么 就 从 这 个 位 置 起 继续 向 前 搜索 ， 直 
到 找到 一 个 空 的 位 置 。 


另 一 种 解决 位 置 冲 突 的 办 法 是 建立 一 个 链表 ， 挂 在 这 个 位 置 的 后 面 ， 所 有 散 
列 函数 值 为 这 个 位 置 的 元 素 都 添加 到 这 个 链表 中 《〈 既 可 以 从 链表 头 部 插入 ， 也 可 
以 从 尾部 追加 ) 。 甚 至 可 以 在 这 个 位 置 后 面 再 挂 一 个 散 列 表 。 


当 查 找 一 个 数据 项 时 ， 不 需要 从 表 中 第 一 个 元 素 起 挨个 查找 ， 而 是 先 产生 该 
数据 项 的 散 列 函数 值 ， 并 根据 这 个 值 找到 表 中 相应 的 位 置 ， 然 后 从 该 位 置 开始 查 
找 该 数据 项 。 


散 列表 是 一 种 被 广泛 使 用 和 严格 测试 过 的 表 碍 找 优化 方法 ， 在 系统 编程 中 到 
处 都 有 它 的 踪影 : 数据库、 操作 系统 和 编译 器 。 


如 果 我 搁浅 到 一 个 欧 岛 上 ， 并 只 被 允许 带 一 种 数据 结构 ， 那 我 坚 无 疑问 选择 
散 列 表 。 


我 的 一 位 同事 需要 编写 一 个 程序 ， 要 求 在 茶 一 地 点 存储 每 个 文件 的 文件 名 和 
相关 信息 。 数 据 存储 于 一 个 结构 表 中 ， 他 决定 使 用 散 列 表 。 这 里 就 需要 用 到 可 调 
试 性 编码 。 他 并 不 想 一 步 登 天 ， 一 次 完成 所 有 的 任务 。 他 首先 让 最 简单 的 情况 能 
够 运行 ， 就 是 散 列 函数 总 是 返回 一 个 0。 这 个 散 列 函数 如 下 : 


/* hash_file: 占 位 符 ， 为 将 来 更 复杂 的 程序 留 下 位 置 */ 


int hash_filename(char *s) 


return 6; 


} 


调用 这 个 散 列 函数 的 代码 如 下 : 


* 


* find_file: 定位 以 前 建立 的 文件 描述 符 ， 需 要 时 可 以 新 建 一 个 
*/ 


file find filename(char *s) 


int hash value = hash filename(s); 
file f; 


for(f = file hash table[hash value]; f != NIL; f = f -> flink) { 
if(strcmp(f -> fname, s) == SAME) { 
return f; 
} 

} 


/* 文件 未 找到 ， 建 立 一 个 新 文件 */ 

f = allocate file(s); 

f -> flink = file hash table[hash value]; 
file hash table[hash value] = f; 

return f; 


} 


它 的 效果 就 像 是 一 个 散 列 表 还 未 被 使 用 。 所 有 的 元 素 都 存储 在 第 0 个 位 置 后 
面 的 链表 中 。 这 使 得 程序 很 容易 调试 ， 因 为 无 须 计算 散 列 函数 的 具体 值 。 这 个 顶 
级 程序 员 很 快 就 完成 了 程序 的 剩余 部 分 ， 因 为 他 不 需要 担心 散 列 的 相互 作用 。 当 
ie 云 行 感到 心满意足 以 后 ， 又 着 手 采 取 了 一 些 优化 措施 ， 并 决定 
激活 散 列 表 。 这 是 一 种 在 单个 函数 中 进行 的 双 线 修改 。 下 面 是 当前 所 使 用 的 代 
人 码 ， 他 总 结 为 “brain, pain, gain”( 思 考 、 痛 苦 、 收 获 ) 。 


int hash_filename(char *s) 
{ 
int length = strlen(s); 
return(length + 4 * (s[6] + 4 * s[length/2])) % FILE_HASH; 


} 


有 时 候 ， 花 点 时 间 把 编程 问题 分 解 成 几 个 部 分 往往 是 解决 它 的 最 快 方法 。 


编程 挑战 
编写 一 个 散 列 程序 


输入 上 面 的 代码 片断 ， 并 补足 必要 的 类 型 说 明 、 数 据 和 代码 ， 使 它 能 像 程序 
一 样 运行 。 然 后 ， 显 式 调试 它 〈 这 可 是 件 恐 怖 的 事 ) 。 


8.9 ”如 何 进 行 强制 类 型 转换 ， 为 何 要 进行 类 型 强制 转换 


“强制 类 型 转换 ”(cast) 这 个 术语 从 C 语 言 一 诞生 就 开始 使 用 ， 既 用 于 “类 型 
转换 ?"， 也 用 于 “消除 类 型 歧义 ”。 如 果 编 写 了 下 面 这 样 的 代码 : 
(float) 3 

它 就 是 一 个 类 型 转换 ， 而 且 数 据 的 实际 二 进 制 位 发 生 了 改变 。 如 果 这 样 写 : 
(float) 3.6 

它 束 用 于 消除 类 型 上 收 义 ， 这 样 编译 器 可 以 从 一 开始 就 选用 正确 的 位 模式 。 有 
些 人 认为 它 之 所 以 命名 为 强制 类 型 转换 ， 是 因为 它们 可 以 把 有 些 东 西 变 得 不 完 
整 。 


你 可 以 很 容易 地 把 茶 种 类 型 的 数据 强制 转换 为 基本 类 型 的 数据 : 在 括号 里 写 
上 新 类 型 的 名 称 〈 如 int) ， 然 后 把 它们 放 在 需要 转换 类 型 的 表达 式 前 面 。 在 强制 
转换 一 个 更 为 复杂 的 类 型 时 ， 转 换 的 方法 并 不 是 那么 显而易见 。 例 如 ， 你 有 一 个 
void 指针 ， 并 知道 它 事实 上 包含 了 一 个 函数 指针 ， 那 么 如 何在 一 条 语句 中 进行 类 
型 转换 并 调用 该 函数 呢 ? 


复杂 的 类 型 转换 可 以 按 以 下 3 个 步骤 编写 。 


1. 碍 看 一 个 对 象 的 声明 ， 它 的 类 型 就 是 想 要 转换 的 结果 类 型 。 


2. 删 去 标识 符 《〈 以 及 任何 如 extern 之 类 的 存储 限定 符 ) ， 并 把 剩余 的 内 容 放 
在 一 对 括号 里 。 


3. 把 第 2 步 产 生 的 内 容 放 在 需要 进行 类 型 转换 的 对 象 的 左边 。 


作为 一 个 实际 例子 ， 程 序 员 经 常 及 现 他 们 需要 强制 类 型 转换 以 便 使 用 qsort() 


库 函 数 。 这 个 库 函 数 接收 4 个 参数 ， 其 中 一 个 是 指向 比较 函数 的 指针 。qsortO 函 数 
声明 如 下 : 


void qsort(void base, size t nel, size t width, 
int(*compar)(const void*, const void *)); 


当 调 用 qsort0) 函 数 时 ， 可 以 向 它 传递 一 个 你 喜欢 的 比较 函数 。 你 的 比较 函数 
将 接收 实际 的 数据 类 型 而 不 是 void* 参 数 ， 就 像 下 面 这 样 : 


int intcompare(const int *i, const int *]j) 


{ 


return(*i - *]j); 


} 


这 个 函数 并 不 与 qsort() 的 compar0 人 参数 完全 匹配 ， 所 以 需要 进行 强制 类 型 转 
换 品 。 我 们 假定 有 一 个 整数 数组 ， 它 具有 10 个 元 素 ， 现 在 需要 对 它们 进行 排序 。 
根据 上 面 列 出 的 3 个 步骤 ， 可 以 发 现 对 qsort0 的 调用 将 会 是 下 面 这 种 样子 : 


qsort( 


a, 

16， 

Sizeof(int)， 

(int (*)(const void *, const void *)) intcompare 


作为 一 个 不 实用 的 例子 ， 你 可 以 建立 一 个 指向 如 printfO 之 类 的 函数 的 指针 ， 
使 用 


extern int printf(const char*, ...); 
void *f = (void*)printf; 


这 样 就 可 以 通过 一 个 经 过 适当 类 型 转换 的 指针 来 调用 printfO 函 数 了 ， 方 法 如 
下 : 


(*(int(*)(const char*, ...))f)("Bite my shorts. Also my chars and ints\n"); 


8.10 ”轻松 一 下 一 一 国际 C 语 言 混乱 代码 大 赛 


C 语 言 结合 了 汇编 语言 的 所 有 威力 和 汇编 语言 的 所 有 易 用 性 。 


一 一 古代 农民 的 格言 


对 于 任何 编程 语言 ， 都 可 以 用 一 种 粗暴 的 方法 来 使 用 它 。 绝 大 多 数 的 优秀 程 
序 员 都 能 写 出 一 些 非常 艰 涩 的 代码 ， 让 你 不 忍 卒 读 。 有 些 代码 你 可 以 自豪 地 拿 出 
来 给 隔壁 办 公 室 的 程序 员 看 ， 打 赌 他 们 猜 不 出 代码 的 功能 。 有 些 代码 时 隔 6 个 月 
以 后 连 自己 也 不 知道 它 是 用 来 干什么 的 。 可 以 用 任何 语言 来 编写 这 类 程序 ， 但 使 
用 C 语 言 似乎 更 容易 达到 这 个 目的 。 


国际 C 语 言 混乱 代码 大 赛 (IOCCC)》 是 一 项 年 度 竞赛 ， 自 1984 年 以 来 一 直 延 
续 至 今 。 它 由 Landon Curt 和 Larry Bassel 在 USENET 上 举办 。 它 源 于 Landen 阅 读 了 
Bourne Shell 的 源 代码 之 后 所 发 出 的 感叹 :“ 天 哪 ! 这 太 过 分 了。” 他 开始 想象 ， 如 
果 有 意 把 C 语 言 的 代码 弄 得 混乱 不 堪 ( 而 不 是 在 实际 编程 中 侦 尔 出 现 的 副 作 
用 ) ， 到 底 能 达到 什么 程度 。 


大 赛 形 成 了 一 年 一 度 的 传统 。 在 冬季 里 接收 参赛 作品 ， 在 春季 里 进行 评判 ， 
在 夏季 的 Usenix 会 议 上 公布 获胜 者 。 通 辣 有 10 种 类 型 的 获胜 者 :“ 对 规则 的 最 奇怪 
的 得 用 ”最 具 创 意 的 源 代 码 布局 ”最 优秀 的 单行 代码 ”等 。 综 合 性 的 “最 佳 上 镜 ? 痰 
授予 最 难 阅 读 、 行 为 最 为 古怪 〈 但 能 够 运行 ) 的 C 程 序 的 作者 。 


IOCCC 有 很 多 令 人 捧腹 之 处 ， 而 且 它 能 够 以 令 人 惊异 的 方式 扩展 你 的 知识 ， 
不 管 你 是 自行 编写 还 是 事后 分 析 获 胜 者 的 代码 。 例 如 ，1987 年 ， 贝 尔 实验 室 的 
David Korn 提 交 了 下 面 这 个 获奖 作品 : 


main() { printf(&unix[”\821%six\812\8”], (unix)[”have”] + ”fun” - 6x66); } 


它 打印 的 是 什么 东西 ? (提示 : 它 跟 have fun 无 关 ) David 编 写 了 与 Bourne 


Shell 齐 名 的 Korn Shell， 它 被 广泛 认为 比 第 7 版 的 /bin/sh 清 楚 得 多 ， 大 概 是 由 于 
IOCCC 扮 演 了 安全 阀 的 角色 ， 黑 客 们 已 经 痛 痛 快 快 地 发 挥 了 一 回 ， 所 以 就 不 想 在 
实际 代码 里 玩 花 样 了 。 


1988 年 的 获胜 者 是 cdecl 程 序 的 一 个 混乱 版 本 ， 作 者 是 Gopi Reddy。 回 想 一 
下 ， 非 混乱 的 cdecl 程 序 大 概 用 了 150 行 代码 ， 而 这 个 混乱 版 本 的 代码 只 有 12 行 


#includex<stdio.h> 

#include<ctype.h> 

#define w printf 

#define p while 

#define t(s) (W = T(s)) 

char *X,*B,*L,I[99];M,W,V;D(){W==9?(w("’%.*s’? is ",V,X),t(6)):W==46?(t(6), D(),t(4 
1)): W==42?(t(0),D(),w("ptr to ")):8;p(W==46?(t(06),w("func returning "),t(41)):W== 
91?(t(0)==32?(w("array[8..%d] of ",atoi(X)-1),t(0)):w("array of "),t(93)):06);}main 
(){p(w("input: "), B=gets(I))if(t(60)==9)L=X,M=V,t(6), D(),w("%.*s.\n\n",M,L);}T(s) 
{if(!s||s==W){p(*B==9| |*B==32)B++;X=B;V=0;if(W=isalpha(*B)?9:isdigit(*B)?32:*B++)i 
f(W<33)p(isalnum(*B))B++,V++; }return W;} 


这 类 过 度 使 用 “?” 和 “，” 操 作 符 的 混合 代码 ， 用 现在 的 目光 来 看 显得 并 不 是 特 
别 有 创 意 。 但 在 当时 ， 这 种 做 法 非常 新 奇 ， 而 且 能 够 使 程序 的 代码 变 得 令 人 吃 恢 
得 简洁 。 至 于 上 面 这 段 代 码 是 如 何 工 作 的 ， 就 留 给 读者 好 好 分 析 吧 。〔 哈 ! 我 总 
是 想 这 么 说 ) 首先 要 找到 两 个 子 程序 ， 即 TO 和 DO。 前 者 负责 寻找 下 一 个 标记 并 
确定 它 是 标识 符 、 数 字 还 是 其 他 内 容 ; 后 者 负责 分 析 过 程 。 请 试 着 把 这 些 代码 翻 
译 成 非 混乱 的 代码 ， 驳 用 预 处 理 器 运行 ， 把 有 关内 容 格式 化 为 原来 的 形式 。 然 后 
把 所 有 的 ? 表达 式 改 写 为 让 语句 。 循 环 往复 ， 直 到 代码 清晰 可 读 为 止 。 


本 章 最 后 一 个 混乱 C 代 码 例子 是 一 个 BASIC 解 释 器 ， 作 者 是 伦敦 大 学 的 研究 
生 Diomidis Spinellis， 他 只 用 了 大 约 1500 字 符 就 完成 了 这 个 程序 ! 程序 附 有 一 个 
指导 手册 ， 解 释 了 如 何 使 用 解释 器 ， 并 提供 了 一 个 BASIC 程 序 实 例 。 


BE ,,. 
软件 信条 


DDS-BASIC 解 释 器 〈1.00 版 ) 


Ee 


RUN 下 二 下 NEW BYE OLD 文件 名 SAVE 文件 名 


程序 命令 

变量 名 A 到 Zz 变量 在 RUN 时 被 初始 为 0 
FOR var = exp TO exp NEXT 变量 

GOSUB exp RETURN 

GOTO exp IF exp THEN exp 

INPUT 变量 PRINT 字符 串 

PRINT exp Var = exp 

REM 任何 文本 END 


表达 式 〈 按 优先 级 排列 ) : 
加 括号 的 表达 式 ; 

数字 (0 开头 表示 八进制 数 ，0x 开 头 表示 十 六 进 制 数 ) 、 变 量 
单 目 操作 符 - 


| 


= <> 
<= >= 
* 和 + 也 用 作 布 尔 型 的 AND 和 OR 


布尔 表达 式 把 0 作为 false， 把 1 作为 true 


编辑 : 
行 编辑 器 使 用 每 行 重新 登记 


行 号 后 面 内 容 为 空 表示 删除 该 行 


输入 格式 : 
行内 标记 的 自由 格式 位 置 


行 号 前 不 允许 有 空格 


在 OLD 或 SAVE 命 令 和 文件 名 之 间 只 能 正好 是 一 个 空格 


所 有 的 输入 必须 都 是 大 写 的 


限制 : 


行 数 : 1 一 10000 


他 长 999 字 符 


FOR 幅 套 层 数 : 26 


GOSUB: 999 层 

程序 : 动态 分 配 

表达 式 : 16 位 机 器 为 -32768 一 32767，32 位 机 器 为 -2147483648 一 
2147483648 

错误 检查 /错误 报告 : 


不 执行 任何 错误 检查 


信息 “core dump”( 信 息 转 储 ) 表示 语法 或 语义 错误 


主机 环境 : 
ANSIC、 传 统 的 K&R C 
ASCII 或 EBCDIC 字 符 集 


48KB 内 存 


这 里 提供 的 BASIC 程 序 实例 是 一 个 旧式 的 月 球 登陆 车 游戏 : 


16 REM Lunar Lander 
26 REM By Diomidis Spinellis 


36 PRINT 


66 GOSUB 4666 
70 GOSUB 1666 
86 GOSUB 2666 
96 GOSUB 3666 


166 
116 
126 
136 
135 
146 
156 
166 
176 
186 
266 
216 


16606 
106106 
1020 
1636 
16046 
16050 
2060 
2016 
2015 
2020 
2030 
2040 
2056 
26060 


H=H-V 
V=((V+G)*106-U*2)/10 
F=F-U 

IF H > @ THEN 86 

H = 6 

GOSUB 2666 


IFV > 5 THEN 266 


PRINT "Congratulations! This was a very good landing." 


GOSUB 5660 
GOSUB 16 

PRINT "You have crashed." 
GOTO 176 

REM Initialise 

V = 70 

F 506 

H 16606 

G=2 

RETURN 

REM Print values 

PRINT "Meter readings" 


PRINT "-------- a" 
PRINT "Fuel (gal):" 

PRINT F 

GOSUB 2166 + 166 * (H <> 6) 
PRINT V 


PRINT "Height (m):" 


2676 PRINT H 

2686 RETURN 

2166 PRINT "Landing velocity (m/sec):" 
2116 RETURN 

2266 PRINT "Velocity (m/sec):" 

2216 RETURN 

3666 REM User input 


3665 


IF F = 6 THEN 3076 


3616 PRINT "How much fuel will you use?" 
3626 INPUT U 


3625 


IF U < 6 THEN 3696 


3636 IF U <= F THEN 3666 

3646 PRINT "Sorry, you have not got that much fuel!" 
3656 GOTO 3616 

3666 RETURN 

3676 U = 6 

3686 RETURN 

3696 PRINT "No cheating please! Fuel must be >= 6." 
3166 GOTO 3616 

4666 REM Detachment 


4665 
46067 


PRINT "Ready for detachment" 
PRINT "一 COUNTDOWN —" 


46160 FOR I = 1 TO 11 


"You are on the Lunar Lander about to leave the spacecraft. 


4626 PRINT 11 - 工 

4625 GOSUB 4566 

4636 NEXT 工 

4635 PRINT "You have left the spacecraft." 

4637 PRINT "Try to land with velocity less than 5 m/sec." 
4646 RETURN 

4566 REM Delay 

4516 FOR J = 1 TO 566 

4526 NEXT J 

4536 RETURN 

5666 PRINT "Do you want to play again? ( 0 = no, 1 = yes)" 
5616 INPUT Y 

56026 IFY = 6 THEN 5046 

5636 RETURN 

5646 PRINT "Have a nice day." 


如 果 把 这 些 输入 到 一 个 叫 作 LANDER.BAS 的 文件 里 ， 就 可 以 在 BASIC 解 释 器 
里 用 下 列 命令 进行 编译 和 运行 : 


OLD LANDER.BAS 
RUN 


BASIC 解 释 器 本 身 的 混乱 代码 如 下 : 


#define 0O(b, f, u, s, Cc, a) \ 

b() { int o=f(); switch(*p++){X u:_ os b(); XY c: oab(); default:p--; 0o;}} 
#define t(e,d, ,C)X e:f=fopen(B+d, );C;fclose(f) 

#define U(y,z) while(p=Q(s,y)*pt++=z,*p=” ? 

#define N for(i=0;i<11*R;i++)m[i]&& 

#define I "%d %s\n", i, m[i] 

#define X ;break;case 

#define _ return 

#define R 999 

typedef char*A;int*C,E[R],L[R], MIR],P[R],1,i,j;char B[R],F[2];A m[12*R], malloc(), 
p,q9,X,Yy,2,Ss,d,f,fopen();A Q(s,0)A s,0o;{for(x=s;*x;x++){for(y=x,z= 
O;*Z&&*Yy==*Z;y++)Z++;if(z>08&&!*z) x;} 8;}main(){m[11*R]="E";while( puts ("OK") 
,gets(B))switch(*B){X’R’:C=E;1=1;for(i=0;ix<R;P[i++]=8);while(1){while(!(s=m[1]))1+ 
+;if(1Q(s,"\"")){U(" <>",#°) UC"<=", $ );U(">=", "1 );}d=B; while(*F=*S){*s==”"’&&j 
++;if(j&1||!1Q("\t",F))*dt+=*s;s++;}*d--=j=0;if(B[1] !=’=’)switch(*B){X’?E? :1=-1X2R? 
:B[2]!=?M’&&(1=*--C)X’I’”:B[1]==’N’ ?gets(p=B),P[*d]=S():(*(q=Q(B, "TH"))=0,p=B+2,S() 
&&(p=q+4,1=s()-1)X’P’”:B[5]==’”"’”?*d=0, puts(B+6):(p=B+5,printf("%d\n",S()))X’G’ :p=B+ 
4,B[2]==’”S’&&(*C++=1,p++),1=S()-1X’F’:*(q=Q(B,"TO"))=8;p=B+5;P[i=B[3]]=S();p=q+2;M 
[i]=S();L[i]=1X?N’?”:++P[*d]<=M[*d]&&(1=L[*d]);)else p=B+2,P[*B]=S();1++;}X’L’”:N pri 
ntf (I) XN’”’: N free(m[i]),m[i]=@ X’B’: ©@ t(’S’,5,"w",N fprintf(f,I))t(’”0’,4,"r", 
while (fgets(B,R,f))(*Q(B,"\n")=0,G()))Xe:default:G();} 6;}G(){1=atoi(B);m[1]&&fre 
e(m[1]);(p=Q(B,""))?strcpy(m[1]=malloc(strlen(p)),p+1):(m[1]=8,0);}0(S,J,’”=’ ,==,’# 
?51=)0(JK < ?> ,>)O(K,V,’ $’ ,<=,° 1 ,>=)0(V,W, + ,+,’—”,-)O(W,Y,”*?,*,”/?,/)Y() {i 
nt o;_*p==”-?”?p++,-Y():*p>=’”O’&&*p<=”9’?strto 1(p,&p,9): *p==’”(?”?p++,0=S(),p++,0:P 
[*p++];) 


在 输入 时 注意 字母 人 2 和 数字 “1 的 区 别 ! 如 果 它 出 现在 赋值 符 的 左边 ， 那 一 


定 是 字母 全。 


这 是 一 个 难以 置信 的 程序 ， 很 值得 我 们 用 逆向 工程 法 把 它 还 原 成 非 混乱 的 版 
本 ， 然 后 观察 它 是 如 何 工作 的 。 如 果 它 激发 了 你 的 想象 力 ， 你 也 可 以 试 试 去 参加 
IOCCC 大 赛 。 只 要 阅读 Usenet 上 的 comp.lang.c 新 闻 组 ， 并 遵循 在 晚秋 时 候 贴 在 那 
里 的 指示 就 可 以 参赛 。 注 意 ， 获 胜 者 属于 世界 上 最 好 的 程序 员 之 一 ， 但 他 所 干 的 
却 是 最 坏 的 事 。 


解决 方案 


与 原型 有 关 的 类 型 提升 


u.d = 106.0; 
printf("put in a double, pull out a float f = %f \n", u.f); 


u.f = 106.0; 
printf(" put in a float, pull out a double d= %f \n", u.d); 


a.out 
put in a double, pull out a float f 
put in a float, pull out a double d 


2.562560 
524288 .60606606 


异步 VO 


下 面 的 代码 会 使 基于 SVr4 的 操作 系统 为 每 个 来 自 标 准 输入 的 字符 发 送 一 个 中 
断 。 


#include “errno .hy> 


#include <signal.h> 
#include “stdio.h> 
#include <stropts.h> 
#include <sys/types.h> 
#include <sys/conf.h> 


int iteration = 0; 
char crlf[] = {68xd, 8xa, 906}; 


void handler(int s) 


{ 
int c = getchar(); /* 读 入 一 个 字符 */ 
printf("got char %c, at count %d %s", c, iteration, crlf); 


Le == 2 
system("stty sane"); 
exit(@); 


main() 


{ 


sigset(SIGPOLL，,，handler); ”/* 建立 处 理 程序 */ 
system("stty raw -echo"); 
ioct1(6，I_SETSTG，S_RDNORM); /* 请 求 中 断 驱动 的 输入 */ 


for(;;iteration++); 


/* 可 以 在 这 里 进行 一 些 其 他 的 处 理 */ 


使 用 sigset0 而 不 是 signal0， 就 不 必 再 每 次 都 重新 注册 信和 号 处 理 程序 。 下 面 是 
一 个 输出 示例 : 


% a.out 
got char a, at count 1887525 


got char b，at count 5979648 
got chat c, at count 7299636 
got char d, at count 9862163 
got char e, at count 11666214 
got char q, at count 14551814 


解决 方案 


用 FSM 实 现 cdecl 


#include “stdio.h> 
#include “string.hy> 
#include “ctype.h> 
#define MAXTOKENS 166 
#define MAXTOKENLEN 64 
enum type_tag { IDENTIFIER, QUALIFIER, TYPE }; 
struct token { 
char type; 
char string[MAXTOKENLEN ] ; 
}; 
int top = -1; 
/* 在 第 一 个 标识 符 (identifier) 前 保存 所 有 的 标记 (token) */ 
struct token stack[MAXTOKENS ] ; 
/* 保存 刚 读 入 的 标记 */ 
struct token this; 
#define pop stack[top--] 
#define push(s) stack[++top]=s 
enum type_tag 
classify_string(void) 
/* 判断 标识 符 的 类 型 */ 
{ 
char *s = this.string; 
if (!lstrcmp(s, "const")) { 
strcpy(s, "read-only"); 
return QUALIFIER ; 
} 
if (!strcmp(s, "volatile")) return QUALIFIER; 
if (!strcmp(s, "void")) return TYPE; 
if (!strcmp(s, "char")) return TYPE; 
if (!strcmp(s, "signed")) return TYPE; 
if (!strcmp(s, "unsigned")) return TYPE; 


if (!strcmp(s，"short")) return TYPE; 
if (!strcmp(s，"int")) return TYPE; 
if (!strcmp(s, "long")) return TYPE 
if (!strcmp(s, "float")) return TYPE; 
if (!strcmp(s, "double")) return TYPE; 
if (!lstrcmp(s, "struct")) return TYPE; 
if (!strcmp(s, "union")) return TYPE; 
if (!strcmp(s, "enum")) return TYPE; 
return IDENTIFIER; 

} 

void gettoken(void) 

{ /* 读 入 下 一 个 标记 ， 保 存在 "this" 

char *p = this.string; 

/* 略 过 所 有 空白 字符 */ 

while ((*p = getchar()) == ”’); 

if (isalnum(*p)) { 
/* 在 标识 符 中 读 入 A-Z、1-9 字 符 */ 
while (isalnum(*++p = getchar())); 
ungetc(*p, stdin); 
*p 三 ”\@’; 
this.type = classify _ string(); 
return; 


*/ 


this.string[1] = ’\@’; 

this.type = *p; 

return; 

} 
void initialize()， 
get_array(), get params(), get lparen(), get_ ptr part(), get type() 
void (*nextstate)(void) = initialize; 

int main() 


/* 用 有 限 状 态 机 实现 的 Cdecl */ 


{ 

/* 在 不 同 的 状态 间 转 换 ， 直 到 指针 为 null */ 

while (nextstate != NULL) 
(*nextstate)(); 

return ©; 

} 

void initialize() 

{ 

gettoken( ) ; 

while (this.type != IDENTIFIER) { 
push(this); 
gettoken(); 


printf("%s is ", this.string); 
gettoken( ) ; 
nextstate = get_array 


} 
void get_array() 


nextstate = get_params ; 
while (this.type == ”[”] { 
printf("array "); 


gettoken();/* 一 个 数字 或 ;]” */ 

if (isdigit(this.string[6])) { 
printf("86..%d ", atoi(this.string) - 1); 
gettoken();/* 读 取 ?]”*/ 


} 

gettoken();/* 在 ;] ”之 后 读 取 */ 
printf("of "); 

nextstate = get lparen,; 


} 
} 
void get_params() 
{ 
nextstate = get_lparen; 
if (this.type == ”(”) { 
while (this.type != ”)’”) { 


gettoken(); 
gettoken(); 
printf("function returning "); 
} 
} 


void get_ lparen() 


nextstate = get ptr_part; 
if (top >= 60) { 
if (stack[top].type == ’(”) { 
pop; 
gettoken();/* 在 ?)? 之 后 读 取 */ 
nextstate = get array; 


} 

} 

void get _ ptr_part() 

{ 

nextstate = get type; 

if (stack[top].type == ”*”) { 
printf("pointer to "); 
pop; 
nextstate = get_ lparen,; 
} else if (stack[top].type == QUALIFIER) { 
printf("%s ", pop.string); 
nextstate = get_ lparen,; 


} 
void get_ type() 


nextstate = NULL; 
/* 处 理 在 读 入 标识 符 之 前 被 放 在 堆栈 里 的 所 有 标记 */ 
while (top >= 06) { 

printf("%s ", pop.string); 


} 
printf("\n"); 


[1 Knuth 教 授 后 来 确认 ，The Art of Programming 书 名 中 的 “Art* 是 指 与 他 长 期 同 
事 的 Art Evans。1967 年 ， 当 这 几 卷 书 开始 出 现时 ，Knuth 在 Carnegi Tech 举 行 了 一 
个 专题 会 ， 会 上 Knuth 评 论说 他 很 高 兴 看 到 他 的 朋友 Art Evans 也 在 场 ， 因 为 他 已 

经 把 这 几 卷 书 以 他 的 名 字 命 名 。 当 在 场 的 人 回 过 神 来 ， 领 悟 到 这 个 恶作剧 的 意思 
时 ， 无 不 捧腹 大 笑 ， 而 Art 本 人 则 比 其 他 人 更 加 尺 证 。 后 来 ， 当 Knuth 获 得 ACM 的 
图 灵 奖 时 ， 他 在 图 灵 奖 的 Lecture 上 再 次 提 到 了 Art， 使 这 个 恶作剧 进入 了 正式 的 记 
录 中 。 你 可 以 从 Communications of the ACM, 第 668 页 ， 第 17 卷 ， 第 12 号 上 看 到 这 个 
玩笑 。Art 声 称 : “这 部 巨著 以 我 的 名 字 命 名 并 没有 使 我 的 生活 得 到 太 多 改变 。” 


[2] 即使 一 个 原型 位 于 printfO 能 及 的 范围 之 内 ， 注 意 它 的 原型 以 省 略 号 结尾 
int printf(const char *format, ...); 

表示 它 是 一 个 接受 可 变 参数 个 数 的 函数 ， 参 数 的 信息 (除了 第 一 个 以 外 ) 均 未 给 
出 ， 此 时 一 般 的 参数 提升 也 始终 会 发 生 。 


[3] 作者 这 句 话 具 有 讽刺 味道 ， 意 思 是 Windows 系 统 只 不 过 是 模仿 了 其 他 的 窗口 
系统 ， 如 果 有 一 个 老板 键 一 按 ， 它 那 层 华丽 外 衣 一 脱落 ， 其 本 质 就 可 能 是 别人 的 
窗口 系统 (Apple 的 Mac) 。 一 一 译 者 注 


[4] 英文 中 hard 即 可 以 表示 “ 硬 *"， 又 可 以 表示 “困难 ”， 作 者 语义 双关 。 一 一 译 者 
注 


[5] ”如果 你 的 计算 机 属于 行为 比较 怪异 ， 而 且 也 不 太 流行 的 那 种 ， 它 的 指针 长 度 
根据 它 所 指向 的 类 型 而 异 ， 这 样 你 将 不 得 不 在 比较 函数 内 进行 强制 类 型 转换 ， 而 
不 是 在 函数 调用 时 。 如 果 有 可 能 的 话 ， 赶 紧 转 移 到 一 个 更 好 的 计算 机 架构 上 。 


第 9 章 ”再 论 数 组 


绝 不 要 在 妈妈 的 房间 里 吃 东西 ， 也 绝 不 要 跟 有 博士 头衔 的 人 玩 牌 。 


并 且 ， 千 万 千 万 ， 绝 不 要 蕊 了 C 语 言 在 表达 式 中 把 一 个 类 型 为 T 的 数组 的 左 值 
当 作 是 指向 该 数组 第 一 个 元 素 的 指针 。 


一 一 C 程 序 员 名 言 〈 传 说 ) 


9.1 什么 时 候 数组 与 指针 相同 


第 4 章 着 重 强调 了 数组 和 指针 并 不 一 致 的 绝 大 多 数 情形 。 本 章 的 开始 部 分 讲 
述 的 就 是 可 以 把 它们 看 作 是 相同 的 情形 。 在 实际 应 用 中 ， 数 组 和 指针 可 以 互 换 的 
情形 要 比 两 者 不 可 互 换 的 情形 更 为 常见 。 让 我 们 分 别 考虑 “声明 ”和 “使 用 ”( 使 用 
它们 传统 的 直接 含义 ) 这 两 种 情况 。 
声明 本 身 还 可 以 进一步 分 成 3 种 情况 : 
。 外 部 数组 〈external array) 的 声明 ; 
。 数组 的 定义 〈 记 住 ， 定 义 是 声明 的 一 种 特殊 情况 ， 它 分 配 内 存 空间 ， 并 可 能 


提供 一 个 初始 值 ) ; 
。 函数 参数 的 声明 。 


所 有 作为 函数 参数 的 数组 名 总 是 可 以 通过 编译 器 转换 为 指针 。 在 其 他 所 有 情 
况 下 《最 有 趣 的 情况 就 是 “在 一 个 文件 中 定义 为 数组 ， 在 另 一 个 文件 中 声明 为 指 
针 ”， 第 4 章 已 有 所 描述 ) ， 数 组 的 声明 就 是 数组 ， 指 针 的 声明 就 是 指针 ， 两 者 不 
能 混 请 。 但 在 使 用 数组 〈 在 语句 或 表达 式 中 引用 ) 时 ， 数 组 总 是 可 以 写成 指针 的 
形式 ， 两 者 可 以 互 换 。 图 9-1 对 这 些 情 况 做 了 总 结 。 


声明 


数组 


在 表达 式 中 使 用 


图 9-1 


extern， 如 extern char a[]: 


不 能 改写 成 指针 的 形式 


定义 ， 如 char a[10]; 
不 能 改写 成 指针 的 形式 


函数 的 参数 ， 如 func(char a[]); 
可 以 自行 选择 数组 形式 或 者 是 
指针 形式 ， 只 要 你 喜欢 


如 c= al[j; 
可 以 自行 选择 数组 形式 或 者 


是 指针 形式 ， 只 要 你 喜欢 


数组 和 指针 相同 的 时 候 


然而 ， 数 组 和 指针 在 由 编译 器 处 理 时 是 不 同 的 ， 在 运行 时 的 表示 形式 也 是 不 
一 样 的 ， 并 可 能 产生 不 同 的 代码 。 对 编译 器 而 言 ， 一 个 数组 就 是 一 个 地 址 ， 一 个 
指针 就 是 一 个 地 址 的 地 址 。 你 应 该 根据 情况 做 出 选择 。 


9.2 ”为 什么 会 发 生 混 消 
为 什么 人 们 会 错误 地 认为 数组 和 指针 是 可 以 完全 互 换 的 呢 ? 这 是 因为 他 们 阅 
读 了 标准 的 参考 文献 ! 
The C Programming Language 第 99 页 的 底部 是 : 


As format parameters in a function definition (作为 函数 定义 的 形式 参数 ) ， 


然后 翻 到 第 100 页 ， 紧 接 前 句 : 


char s[]; 
and (和 ) 
char* s; 
are equivalent (是 一 样 的 ，) ... 


吗 呼 ! 真是 不 幸 ， 这 么 重要 的 一 句 话 竟 然 在 K&R 第 二 版 中 被 分 印 在 两 页 上 ! 
人 们 在 阅读 后 一 句 话 时 ， 很 容易 起 掉 它 的 前 面 还 有 一 句 “ 作 为 水 数 定义 的 形式 参 
数 ”( 也 就 是 说 它 只 限于 这 种 情况 ) ， 尤 其 是 整 句 话 的 重点 在 于 “数组 下 标 表 达 式 
总 是 可 以 改写 为 带 侦 移 量 的 指针 表达 式 ”。 


The C Programming Language,Ritchie, Johnson, Lesk & Kernighan 在 The Bell 
System Technical Journal, 第 57 卷 ， 第 6 号 ，1978 年 7-8 月 ， 第 1991-2019 页 记录 道 : 


“包含 一 个 通用 规则 ， 就 是 当 一 个 数组 名 出 现在 一 个 表达 式 中 时 ， 它 会 被 转换 
为 一 个 指向 该 数组 第 一 个 元 素 的 指针 。” 


这 个 关键 的 名 词 “表达 式 ” 并 未 在 文献 中 精确 定义 。 


当 人 们 学 习 编 程 时 ， 一 开始 总 是 把 所 有 的 代码 都 放 到 一 个 函数 里 。 随 着 水 平 
的 进步 ， 他 们 把 代码 分 别 放 到 几 个 函数 中 。 在 水 平 继续 提高 后 ， 他 们 最 终 学 会 了 
如 何 用 几 个 文件 来 构造 一 个 程序 。 在 这 个 过 程 中 ， 他 们 可 以 看 到 大 量 的 作为 函数 


参数 的 数组 和 指针 。 在 这 种 情况 下 ， 两 者 是 可 以 完全 互 换 的 ， 如 下 所 示 : 


char my_array[108]; 
char *my_ptr; 


i = strlen(my_array); 
j = strlen(my_ptr); 


程序 员 还 可 以 看 到 许多 类 似 下 面 的 语句 : 


printf(”%s %s”, my_ptr, my_array); 


它 清楚 地 展示 了 数组 和 指针 的 可 互 换 性 。 人 们 很 容易 忽视 这 只 是 发 生 在 一 种 
特定 的 上 下 文 环境 中 ， 也 就 是 它们 作为 一 个 函数 调用 的 参数 使 用 。 更 糟 的 是 ， 你 
可 以 编写 如 下 语句 : 


printf(”array at Location %x holds string %s”, a, a); 


在 同一 条 语句 中 ， 既 把 数组 名 作为 一 个 地 址 〈 指 针 ) ， 又 把 它 作为 一 个 字符 
数组 。 这 条 语句 之 所 以 可 行 ， 是 因为 printf 是 一 个 函数 ， 所 以 数组 实际 上 是 作为 指 
针 来 传递 的 。 我 们 也 习惯 了 在 main 函 数 的 参数 中 看 到 char **argv 或 char *argv[] 这 
样 的 形式 ， 它 们 也 是 可 以 互 换 的 。 同 样 ， 这 个 之 所 以 成 立 是 因为 argv 是 一 个 函数 
的 参数 ， 但 它 仍然 诱 使 程序 员 错 误 地 总 结 出 “C 语 言 在 地 址 运算 方法 上 是 一 致 且 规 
则 的 ”。 知 在 头脑 里 已 经 存在 这 样 一 个 概念 ， 再 加 上 平时 常 第 可 以 见 到 数组 下 标 表 
达 式 被 写成 指针 的 形式 ， 久 而 久之 ， 便 很 容易 把 数组 和 指针 混淆 。 


下 面 这 个 “软件 信条 ”非常 重要 ， 我 会 对 它 进行 解释 ， 它 将 多 次 出 现在 本 章 和 
第 10 章 的 内 容 中 。 请 提起 精神 ， 并 折 个 书 角 ， 以 后 回 过 头 来 阅读 它 的 次 数 多 着 
呢 ! 


软件 信条 


什么 时 候 数 组 和 指针 是 相同 的 
C 语 言 标准 对 此 做 了 如 下 说 明 。 


规则 1. 表达 式 中 的 数组 名 (与 声明 不 同 ) 被 编译 器 当 作 一 个 指 问 该 数组 第 
一 个 元 素 的 指针 帆 ( 具 体 释 义 见 ANSI C 标 准 第 6.2.2.1 节 ) 。 


规则 2. 下 标 总 是 与 指针 的 仿 移 量 相同 (具体 释义 见 ANSI C 标 准 第 6.3.2.1 


人 


规则 3. 在 函数 参数 的 声明 中 ， 数 组 名 被 编译 器 当 作 指 向 该 数组 第 一 个 元 素 
的 指针 (具体 释义 见 ANSI C 标 准 第 6.7.1 节 ) 。 


简 而 言 之 ， 数 组 和 指针 的 关系 颇 有 点 像 许 和 词 的 关系 : 它们 都 是 文学 形式 之 
一 ， 有 不 少 共同 之 处 ， 但 在 实际 的 表现 手法 上 义 各 有 特色 。 下 面 将 详细 描述 这 几 
个 规则 的 实际 含义 。 


9.2.1 规则 1: “表达 式 中 的 数组 名 ” 束 古 指针 


上 面 的 规则 1 和 规则 2 合 在 一 起 理解 ， 就 是 对 数组 下 标的 引用 总 是 可 以 写成 一 
个 指向 数组 的 起 始 地 址 的 指针 加 上 偏 移 量 *。 例 如 ， 假 如 我 们 声明 : 


int a[186], *p, i = 2; 


就 可 以 通过 以 下 任何 一 种 方法 来 访问 afj]; 


事实 上 ， 可 以 采用 的 方法 更 多 。 数 组 引用 af[i] 在 编译 时 总 是 被 编译 器 改写 成 * 
(ati) 的 形式 。C 语 言 标准 要 求 编译 器 必须 具备 这 个 概念 性 的 行为 。 也 许 遵循 这 个 
规则 的 捷径 就 是 记 住 方 括号 [表示 一 个 取 下 标 操作 符 ， 就 像 加 号 表示 一 个 加 法 运 
算 符 一 样 。 取 下 标 操 作 符 接 受 一 个 整数 和 一 个 指向 类 型 T 的 指针 ， 所 产生 的 结果 
类 型 是 IT， 一 个 在 表达 式 中 的 数组 名 于 是 就 成 了 指针 。 只 要 记 住 : 在 表达 式 中 ， 
旨 针 和 数组 是 可 以 互 换 的 ， 因 为 它们 在 编译 器 里 的 最 终 形 式 都 是 指针 ， 并 且 都 可 
以 进行 取 下 标 操作 。 就 像 加 法 一 样 ， 取 下 标 操 作 符 的 操作 数 是 可 以 交换 的 〈 它 并 
不 在 意 操作 数 的 先后 顺序 ， 就 像 在 加 法 中 3+5 和 5+3 并 没有 什么 不 一 样 ) 。 这 就 是 
为 什么 在 一 个 a[10] 的 声明 中 ， 下 面 两 种 形式 都 是 正确 的 : 


a[6] 
6[a] 


在 实际 的 产品 代码 中 ， 上 面 第 二 种 形式 从 来 不 曾 使 用 。 确 实 ， 它 除了 可 以 把 
新 手 搞 晕 之 外 ， 实 在 没有 什么 实际 意义 。 


编译 器 自动 把 下 标 值 的 步 长 调整 到 数组 元 素 的 大 小 。 如 果 整 型 数 的 长 度 是 4 
字 节 ， 那 么 afi+1] 和 af 在 内 存 中 的 距离 就 是 4〈 而 不 是 1) 。 对 起 始 地 址 执行 加 法 
操作 之 前 ， 编 译 器 会 负责 计算 每 次 增加 的 步 长 。 这 就 是 为 什么 指针 总 是 有 类 型 限 
制 ， 每 个 指针 只 能 指向 一 种 类 型 的 原因 所 在 因为 编译 器 需要 知道 对 指针 进行 
解除 引用 操作 时 应 该 取 几 个 字 节 ， 以 及 每 个 下 标的 步 长 应 取 几 个 字 节 。 


9.2.2 ”规则 2: C 语 言 把 数组 下 标 作 为 指针 的 侦 移 量 


把 数组 下 标 作为 指针 加 偏 移 量 是 C 语 言 从 BCPL (C 语 言 的 祖先 ) 继承 过 来 的 
技巧 。 在 人 们 的 常规 思维 中 ， 在 运行 时 增加 对 C 语 言 下 标的 范围 检查 是 不 切实 际 
的 。 因 为 取 下 标 操作 只 是 表示 将 要 访问 该 数组 ， 但 并 不 保证 一 定 要 访问 。 而 且 ， 
程序 员 完 全 可 以 使 用 指针 来 访问 数组 ， 从 而 绕 过 下 标 操作 符 。 在 这 种 情况 下 ， 数 
组 下 标 范 围 检 测 并 不 能 检测 所 有 对 数组 的 访问 的 情况 。 事 实 上 ， 下 标 范 围 检测 被 


认为 并 不 值得 加 入 到 C 语 言 中 。 
还 有 一 种 说 法 是 ， 在 编写 数组 算法 时 ， 使 用 指针 比 使 用 数组 “更 有 效率 ”。 


这 个 颇 为 人 们 所 接受 的 说 法 在 通常 情况 下 是 错误 的 。 使 用 现代 的 产品 质量 优 
化 的 编译 器 ， 一 维 数组 和 指针 引用 所 产生 的 代码 并 不 具有 显著 的 差别 。 不 管 怎 
样 ， 数 组 下 标 是 定义 在 指针 的 基础 上 的 ， 所 以 优化 器 常常 可 以 把 它 转换 为 更 有 效 
率 的 指针 表达 形式 ， 并 生成 相同 的 机 器 指令 。 让 我 们 再 看 一 下 数组 /指针 这 两 种 方 
案 ， 并 把 初始 化 从 循环 内 部 的 访问 中 分 离 出 来 : 


int a[16], *p, i; 
变量 a 四 可 以 用 图 9-2 所 示 的 各 种 方法 来 访问 ， 效 果 完 全 一 样 。 


即使 编译 器 使 用 的 是 较 原 始 的 翻译 方法 ， 两 者 产生 不 一 样 的 代码 ， 用 指针 迭 
代 一 个 一 维 数 组 常常 也 并 不 比 直 接 使 用 下 标 迭 代 一 个 一 维 数 组 来 得 更 快 。 不 论 是 
旨 针 还 是 数组 ， 在 连续 的 内 存 地 址 上 移动 时 ， 编 译 器 都 必须 计算 每 次 前 进 的 步 
长 。 计 算 的 方法 是 偏 移 量 乘 以 每 个 数组 元 素 占用 的 字 节 数 ， 计 算 结果 就 是 俩 移 数 
组 起 始 地 址 的 实际 字 节 数 。 步 长 因子 常 剃 是 2 的 乘 方 (如 int 是 4 字 节 ，double 是 8 字 
节 等 ) ， 这 样 编译 器 在 计算 时 就 可 以 使 用 快速 的 左 移 位 运算 ， 而 不 是 相对 绥 慢 的 
加 法 运算 。 一 个 二 进 制 数 左 移 3 位 相当 于 它 乘 以 8。 如 果 数 组 中 的 元 素 的 大 小 不 是 
2 的 乘 方 《 如 数组 的 元 素 类 型 是 一 个 结构 ) ， 那 就 不 能 使 用 这 个 技巧 了 。 


然而 ， 迭 代 一 个 int 数 组 是 人 们 最 容易 想到 的 。 如 果 一 个 经 过 民 好 优化 的 编译 
句 执 行 代码 分 析 ， 并 把 基本 变量 放 在 高 速 的 寄存 器 中 来 确认 循环 是 否 继续 ， 那 么 
最 终 在 循环 中 访问 指针 和 数组 所 产生 的 代码 很 可 能 是 相同 的 。 


在 处 理 一 维 数组 时 ， 指 针 并 不 见得 比 数组 更 快 。C 语 言 把 数组 下 标 改写 成 指 
针 偏 移 量 的 根本 原因 是 指针 和 偏 移 量 是 底层 硬件 所 使 用 的 基本 模型 。 


数组 访问 


for(i = :07 工区 107 I++) 


指针 备 选 方案 1 
p= a; 


for{i = 0; i < 10; i++) 


指针 备 选 方案 2 


for(i = 0; i < 10; i++) 


“tp + 2) = 08 


指针 备 选 方案 3 


for{(i = 0;? 1 < 10; i++) 


*p++ = 07 


中 间 代 码 


把 左 值 (a) 装 入 R1 (可 以 提 人 到 循环 外 ) 
把 左 值 (i) 装 入 R2 〈 可 以 提 到 循环 外 ) 


把 [R2] 装 入 R3 

如 果 需 要 ， 对 R3 的 步 长 进行 调整 
把 RI+R3 的 结果 装 入 R4 中 

把 0 存储 到 [R4] 


把 左 值 (p) 装 入 R0 (可 以 提 到 循环 外 ) 
把 LIROI 装 入 R1 (可 以 提 到 循环 外 ) 
把 左 值 (i) 装 入 R2 (可 以 提 人 到 循环 外 ) 


把 [R2] 装 入 R3 

如 果 需 要 ， 对 R3 的 步 长 进行 调整 
把 RI+R3 的 结果 装 入 R4 中 
把 0 存储 到 [R4]。 


与 指针 备 选 方案 1 相同 
( 想 一 想 ， 为 什么 ? ) 


把 p 所 指 对 象 的 大 小 装 入 R5 (可 以 提 到 循环 外 ) 
把 左 值 (p) 装 入 R0 (可 以 提 到 循环 外 ) 
把 [RO] 装 入 Ri 


把 0 存储 到 [R1] 
把 R5+R1 的 结果 装 入 R1 
把 Rl 存储 到 [RO] 


十 面 这 些 例子 显示 了 不 同 的 备 选 方案 经 过 翻译 后 所 产生 的 中 间 代 码 。 如 果 采 用 优化 措施 ， 那 么 中 间 
代码 可 能 跟 这 里 显示 的 不 一 样 。RO、R1 等 代表 CPU 的 寄存 器 。 在 图 9-2 中 ， 我 们 用 : 


RO 存 储 p 的 左 值 
R2 存 储 的 左 什 


Rl 存储 a 的 左 值 或 p 的 右 值 
R3 存 储 i 的 右 值 


0] 表 示 间 接 载 入 或 写 入 ， 其 地 址 就 是 寄存 器 的 内 容 (这 是 许多 汇编 语言 所 使 用 的 一 个 普通 概念 ) 。 
“可 以 提 到 循环 外 ”表示 这 个 数据 不 会 被 循环 修改 ， 在 每 次 循环 时 可 不 必 执 行 该 语句 ， 因 此 可 以 加 快 特 


环 的 速度 。 


图 9-2 ”数组 /指针 的 中 间 代 码 比较 


9.2.3 “作为 函数 参数 的 数组 名 ”等 同 于 指针 


规则 3 也 需要 进行 解释 。 首 先 ， 让 我 们 回顾 一 下 The C Programming Language 


中 所 提 到 的 一 些 术语 。 


术 语 定义 例子 

它 是 一 个 变量 ， 在 函数 定义 或 函数 声明 的 

形 参 、 int power(int base, int n); base 和 mn 
原型 中 定义 。 它 又 称 为 “形式 参数 ”(formal 

(parameter) 都 是 形 参 
parameter) 

在 实际 调用 一 个 函数 时 所 传递 给 函数 的 i= power(10, j); 10 和 j 都 是 实 参 。 
值 。 它 又 称 为 “实际 参数 ”(actual 在 同一 个 函数 的 多 次 调用 时 ， 实 

(argument ) 
paramenter) 参 可 以 不 同 


标准 规定 ， 作 为 “类 型 的 数组 ”的 形 参 的 声明 应 该 调整 为 “类 型 的 指针 ”。 在 函 
数 形 参 定义 这 个 特殊 情况 下 ， 编 译 器 必须 把 数组 形式 改写 成 指向 数组 第 一 个 元 素 
的 指针 形式 。 编 译 器 只 同 函 数 传递 数组 的 地 址 ， 而 不 是 整个 数组 的 副本 。 不 过 ， 
现在 让 我 们 重点 观察 一 下 数组 ， 隐 性 转换 意味 着 3 种 形式 是 完全 等 同 的 。 因 此 ， 
在 my_function() 的 调用 上 ， 无 论 实 参 是 数组 还 是 真 的 指针 都 是 合法 的 。 


my_function(int *turnip) { ... } 
my_function(int turnip[]) { ... } 
my_function(int turnip[260]) { ... } 


9.3 ”为 什么 C 语 言 把 数组 形 参 当 作 指针 


之 所 以 要 把 传递 给 函数 的 数组 参数 转换 为 指针 ， 是 出 于 效率 的 考虑 ， 这 个 理 
由 常常 也 是 对 违反 软件 工程 做 法 的 一 种 辩解 。Fortran 的 VO 模型 使 用 起 来 相当 麻 
烦 ， 因 为 它 必须 “有 效 地 ” 复 用 现 有 的 IBM 704 汇 编程 序 WVO 库 (尽管 相当 笨拙 ， 而 

且 已 经 过 时 ) 。 全 面 的 语义 检查 被 可 移植 的 C 编 译 器 所 排斥 ， 其 理由 很 牵强 ， 他 
们 认为 把 lint 程 序 作为 一 个 单独 的 程序 ,，“ 效 率 ” 会 更 高 一 些 。 大 多 数 现代 的 ANSI 
C 编 译 器 在 错误 检查 方面 做 了 增强 ， 也 算是 对 这 个 决定 的 不 认同 吧 。 


把 作为 形 参 的 数组 和 指针 等 同 起 来 是 出 于 效率 原因 的 考虑 。 在 C 语 言 中 ， 所 
有 非 数 组 形式 的 数据 实 参 均 以 传 值 形式 〈 对 实 参 制 作 一 份 副 本 并 传递 给 调用 的 函 
数 ， 函 数 不 能 修改 作为 实 参 的 实际 变量 的 值 ， 而 只 能 修改 传递 给 它 的 那 份 副本 ) 
调 有 用。 然而， 如果 要 复制 整个 数组 ， 无 论 在 时 间 上 还 是 在 内 存 空间 上 的 开销 都 可 
能 是 非常 大 的 。 而 且 在 绝 大 部 分 情况 下 ， 你 其 实 并 不 需要 整个 数组 的 副本 ， 而 只 

想 告 诉 函 数 在 那 一 时 刻 对 哪个 特定 的 数组 感 兴趣 。 要 达到 这 个 目的 ， 可 以 考虑 的 
方法 是 在 形 参 上 增加 一 个 存储 说 明 符 (storage specifier) ， 表 示 它 是 传 值 调用 还 
是 传 址 调用 。Pascal 语 言 就 是 这 样 做 的 。 如 果 采 用 “所 有 的 数组 在 作为 参数 传递 时 
都 转换 为 指向 数组 起 始 地 址 的 指针 ， 而 其 他 的 参数 均 采 用 传 值 调用 ”的 约定 ， 就 可 
以 简化 编译 器 。 类 似 地 ， 函 数 的 返回 值 绝 不 能 是 一 个 函数 数组 ， 而 只 能 是 指向 数 
组 或 函数 的 指针 。 


有 些 人 喜欢 把 它 理 解 成 除数 组 和 函数 之 外 的 所 有 的 C 语 言 参数 在 缺 省 情况 下 
都 是 传 值 调用 ， 数 组 和 函数 则 是 传 址 调用 。 数 据 也 可 以 使 用 传 址 调用 ， 只 要 在 它 
前 面 加 上 取 地 址 操作 符 〈&) ， 这 样 传递 给 函数 的 是 实 参 的 地 址 而 不 是 实 参 的 副 
本 。 事 实 上 ， 取 地 址 操作 符 的 主要 用 途 就 是 实现 传 址 调用 。“ 传 址 调用 ”这 个 说 法 
从 严格 意义 上 说 并 不 十 分 准确 ， 因 为 编译 器 的 机 制 非常 清楚 一 一 在 被 调用 的 函数 
中 ， 你 只 拥有 一 个 指向 变量 的 指针 而 不 是 变量 本 身 。 如 果 你 取 实 参 的 地 址 或 对 它 
进行 复制 ， 就 能 体会 到 两 者 的 差别 。 


数组 形 参 是 如 何 被 引用 的 


图 9-3 展 示 了 对 一 个 下 标 形式 的 数组 形 参 进行 访问 所 需要 的 几 个 步 又。 


func (lehar PBL]; 有 GG = BL] 
func (Char “pp)? en c= plils 
编 详 器 符号 表 显 示 p 可 以 取 址 ， 从 堆栈 指针 SP 偏 移 14 个 位 置 

运行 时 步骤 1: 从 SP 偏 移 14 个 位 置 找 到 函数 的 活动 记录 ， 取 出 实 参 。 

运行 时 步骤 2: 皮 i 的 值 ， 并 与 5081 相 加 。 

运行 时 步 又 3: 取出 地 址 (5081+i) 的 内 容 。 


5|0@18|1 
(5081+i) 
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图 9-3 下 标 形式 的 数组 形 参 是 如 何 引 用 的 


注意 它 和 图 4-4 一 样 ， 图 4-4 显 示 的 是 一 个 下 标 形式 的 指针 是 如 何 查 找 地 址 
的 。C 语 言 允 许 程序 员 把 形 参 声明 为 数组 〈 程 序 员 打算 传递 给 函数 的 东西 ) 或 者 
旨 针 《函数 实际 所 接收 到 的 内 容 ) 。 编 译 器 知道 何 时 形 参 是 作为 数组 声明 的 ， 但 
事实 上 在 函数 内 部 ， 编 译 咒 始终 把 它 当 作 一 个 指向 数组 第 一 个 元 素 〔 元 素 长 度 示 
知 〉 的 指针 。 这 样 ， 编 译 器 可 以 产生 正确 的 代码 ， 并 不 需要 对 数组 和 指针 这 两 种 
情况 作 仔细 区 分 。 


不 管 程序 员 实际 所 写 的 是 哪 种 形式 ， 函 数 并 不 自动 知道 指针 所 指 的 数组 共有 
多 少 个 元 素 ， 所 以 必须 要 有 个 约定 ， 如 数组 以 NUL 结 尾 或 者 男 有 一 个 附加 的 参数 
表示 数组 的 范围 。 当 然 并 不 是 每 种 语言 都 是 这 样 做 的 ， 比 如 Ada， 它 的 每 个 数组 
都 有 一 些 附加 信息 ， 表 示 每 个 元 素 的 长 度 、 数 组 的 维 数 以 及 下 标 范 围 。 


在 下 列 定义 中 : 


func(int * tunip) { ... } 


识 


func(int turnip[]) { ... } 


志 


func(int turnip[266]{ ... } 


int my_int;  /* 数据 定义 */ 
int *my_int_ ptr; 
int my_int array[108]; 


你 可 以 合法 地 使 用 下 列 任 何 一 个 实 参 〈 见 表 9-1) 来 调用 上 面 任何 一 个 原型 的 
函数 。 它 们 常常 用 于 不 同 的 目的 。 


表 9-1 数组 /指针 实 参 的 一 般 用 法 


调用 时 的 实 参 类 型 通常 目的 
func(&my_int); 一 个 整 型 数 的 地 址 一 个 int 参 数 的 传 址 调用 
func(my_int_ptr); 指向 整 型 数 的 指针 传递 一 个 指针 
func(my_int_array); 整 型 数组 传递 一 个 数组 
func(&my_int_array[i]); 一 个 整 型 数组 某 个 元 素 的 地 址 传递 数组 的 一 部 分 


相反 ， 如 果 处 于 funcO 函 数 内 部 ， 就 没有 一 种 容易 的 方法 分 辨 这 些 不 同 的 实 
参 ， 因 此 也 无 法 知道 调用 该 函数 是 用 于 何 种 目的 。 所 有 属于 函数 实 参 的 数组 在 编 
译 时 被 编译 器 改写 为 指针 。 因 此 ， 在 函数 内 部 对 数组 参数 的 任何 引用 都 将 产生 一 
个 对 指针 的 引用 。 图 9-3 显 示 了 它 的 实际 操作 过 程 。 


因此 ， 很 有 意思 的 是 ， 没 有 办 法 把 数组 本 身 传 递 给 一 个 函数 ， 因 为 它 总 是 被 
目 动 转换 为 指向 数组 的 指针 。 当 然 ， 在 函数 内 部 使 用 指针 ， 所 能 进行 的 对 数组 的 


操作 几乎 跟 传递 原本 的 数组 没有 差别 。 只 不 过 ， 如 果 想 用 sizeof〈 实 参 ) 来 获得 数 
组 的 长 度 ， 所 得 到 的 结果 不 正确 而 已 。 


这 样 ， 在 声明 这 样 一 个 函 数 时 ， 你 就 有 了 选择 余地 : 可 以 把 形 参 定义 成 数 
组 ， 也 可 以 定义 成 指针 。 不 论 选择 什么 ， 编 译 器 都 会 注意 到 该 对 象 是 一 个 函数 参 
数 的 特殊 情况 ， 它 会 产生 代码 对 该 指针 进行 解除 引用 操作 。 


编程 挑战 
玩 转 数 组 /指针 实 参 
编写 并 执行 一 个 程序 ， 验 证 前 面 的 说 法 。 


1. 定义 一 个 函数 ， 它 接受 一 个 字符 数组 参数 ca。 在 函数 内 部 ， 打 印 出 &ca、 
&(ca[0]) 和 &(ca[1]) 的 值 。 


2. 另外 定义 一 个 函数 ， 它 接受 一 个 字符 指针 参数 pa。 在 函数 内 部 ， 打 印 出 
&pa、&(pa[0])、&(pa[1])) 和 ++pa 的 值 。 


3. 建立 一 个 全 局 字符 数组 ga 并 用 英文 字母 初始 化 。 调 用 两 个 使 用 它 作 为 参数 
的 函数 ， 并 比较 两 个 函数 所 打印 的 值 。 


4. 在 main 程 序 中 打印 出 &ga、&(ga[0]) 和 &(ga[1]) 的 值 。 


5. 在 运行 程序 之 前 ， 先 写 下 预计 打印 出 的 值 ， 并 说 明 原 因 。 如 果 预 期 值 和 
程序 实际 打印 的 值 有 有 出入， 解释 其 中 的 原因 。 


如 果 你 想 让 代码 看 上 去 清楚 明白 ， 就 必须 遵循 一 定 的 规则 ! 我 们 倾向 于 始终 
把 参数 定义 为 指针 ， 因 为 这 是 编译 器 内 部 所 使 用 的 形式 。 如 果 名 不 副 实 ， 那 就 是 
一 种 很 可 疑 的 编程 风格 。 但 从 另 一 方面 看 ， 有 些 人 觉得 int table[] 比 int *table 更 能 
表达 程序 员 的 意图 。table[] 这 种 记 法 清楚 地 表明 了 table 内 里 有 好 几 个 元 素 ， 提 示 
函数 对 它们 进行 处 理 。 


注意 ， 有 一 种 操作 只 能 在 指针 里 进行 而 无 法 在 数组 中 进行 ， 那 就 是 修改 它 的 
值 。 数 组 名 是 不 可 修改 的 左 值 ， 它 的 值 是 不 能 改变 的 ， 见 图 9-4《〈 几 个 函数 并 排放 
在 一 起 以 便 比 较 ， 它 们 都 是 同一 个 文件 的 一 部 分 ) 。 


数组 实 参 非 实 参 的 指针 


0 int array[100],array2[100]; 


funl (int *ptr) 


{ main() 


{ 

BEETL] 过 汪 SEILT SS 8 { 
St *arr = 3; array[lll = 3 
ptr = array2; arr = array2; *array = 3; 


} 


} array = array2; /* 失 败 */ 
} 


图 9-4 ”数组 实 参 的 有 效 操作 


语句 array = array2; 将 引起 一 个 编译 时 错误 ， 错 误 信 息 是 “无 法 修改 数组 名 ”。 
但 是 ，arr = array2 却 是 合法 的 ， 因 为 arr 昌 然 声明 为 一 个 数组 ， 但 实际 上 却 是 一 个 
旨 针 。 


9.4 数组 片段 的 下 标 


可 以 通过 向 函数 传递 一 个 指向 数组 第 一 个 元 素 的 指针 来 访问 整个 数组 ， 也 可 
以 让 指针 指向 任何 一 个 元 素 ， 这 样 传递 给 函数 的 就 是 从 该 元 素 之 后 的 数组 片段 。 
有 些 人 《主要 是 Fortran 程 序 员 ) 用 另 一 种 方法 扩展 这 种 技巧 。 他 们 向 函数 传递 数 
组 前 面 一 个 位 置 的 地 址 (a[-1]〉， 这 样 就 可 以 使 数组 的 下 标 从 1 到 N， 而 不 是 从 0 
到 N-1。 


如 果 你 和 许多 Fortran 程 序 员 一 样 在 编程 算法 中 已 经 习惯 了 数组 下 标 为 1 到 N， 
那么 这 个 技巧 对 你 可 能 很 有 吸引 力 。 不 幸 的 是 ， 这 个 手段 完全 为 标准 所 不 容 〈 标 
准 第 6.3.6 节 , “附加 操作 符 ”(Additive operators) 做 了 明确 禁止 ) ， 而 且 这 个 做 法 
确实 被 特别 地 标注 为 可 能 引起 未 定义 的 行为 ， 所 以 你 千 万 不 要 告诉 别人 是 我 告诉 
本 你 区 丰 O 


要 取得 Fortran 程 序 员 需要 的 效果 其 实 非常 简单 ， 只 要 在 数组 的 声明 中 让 它 的 
长 度 比 所 需要 的 多 1， 这 样 数 组 的 下 标 范围 就 是 0 到 N， 然 后 只 使 用 1 到 N 就 行 了 。 
不 必 疑 惑 ， 不 必 惊 话 ， 就 是 这 么 简单 。 


9.5 ”数组 和 指针 可 交换 性 的 总 结 


警告 : 在 你 阅读 并 理解 前 面 的 章节 之 前 不 要 阅读 这 一 节 的 内 容 ， 因 为 它 可 能 
会 使 你 的 脑子 永久 退化 。 


1. 用 af[ij 这 样 的 形式 对 数组 进行 访问 总 是 被 编译 器 “改写 ?或 解释 为 像 *(a+1) 这 
样 的 指针 访问 。 


2. 指针 始终 就 是 指针 。 它 绝 不 可 以 改写 成 数组 。 当 指针 作为 函数 参数 时 ， 
你 可 以 用 下 标 形式 访问 指针 ， 而 且 你 知道 实际 传递 给 函数 的 是 一 个 数组 。 


3. 在 特定 的 上 下 文中 ， 也 就 是 它 作 为 函数 的 参数 时 (也 只 有 这 种 情况 )， 
一 个 数组 的 声明 可 以 看 作 是 一 个 指针 。 作 为 函数 参数 的 数组 (就 是 在 一 个 函数 调 
用 中 ) 始终 会 被 编译 器 修改 成 为 指 问 数组 第 一 个 元 素 的 指针 。 


4. 因此 ， 当 把 一 个 数组 定义 为 函数 的 参数 时 ， 既 可 以 选择 把 它 定 义 为 数 
组 ， 也 可 以 定义 为 指针 。 不 管 选 择 哪 种 方法 ， 在 函数 内 部 事实 上 获得 的 都 是 一 个 
指针 。 


5. 在 其 他 所 有 情况 中 ， 定 义 和 声 明 必 须 匹 配 。 如 果 定 义 了 一 个 数组 ， 在 其 
他 文件 对 和 它 进 行 声明 时 也 必须 把 它 声明 为 数组 ， 指 针 也 是 如 此 。 


9.6 C 语 言 的 多 维 数组 


有 些 人 声称 C 语 言 没 有 多 维 数 组 ， 这 是 不 对 的 。ANSI C 标 准 在 第 6.5.4.2 节 和 
第 69 号 脚注 上 表示 : 


当 几 个 “[]* 修 饰 符 连续 出 现时 方 括 号 里 面 是 数组 的 范围 ) ， 就 是 定义 一 个 
多 维 数组 。 


9.6.1 但 所 有 其 他 语言 都 把 这 称 为 “数组 的 数组 ” 


那些 人 的 意思 是 C 语 言 没 有 像 其 他 语言 那样 的 多 维 数组 ， 如 Pascal 或 Ada。 在 
Ada 中 ， 可 以 像 图 9-5 那 样 声明 一 个 多 维 数组 。 


apples 了 drray (0 :于 07 1 .SON Df Tea 


或 者 声明 一 个 数组 的 数组 : Ada 
type Vector is array(1..50) of real; 


orange : array(0..10) of vector; 
图 9-5 ” Ada 的 例子 


但 是 不 把 苹果 和 梨 混 为 一 谈 。 在 Ada 中 ， 多 维 数组 和 数组 的 数组 是 两 个 完 
不 同 的 概念 。 


Pascal 则 采用 了 一 种 相反 的 方法 。 在 Pascal 中 ， 数 组 的 数组 和 多 维 数组 是 可 以 
完全 互 换 的 ， 并 且 在 任何 时 候 都 是 等 同 的 。 在 Pascal 中 ， 可 以 像 图 9-6 那 样 声明 和 
访问 一 个 多 维 数组 。 

Taw M £ Hreaylacslb] Gf arrayle. ad] we chary 


MEL) Ss 各 


习惯 上 人 们 采用 方便 的 简写 形式 : Pascal 
var M * arravlianbr Cd] of chars 


MI, TT] Ss= 


图 9-6 ”Pascal 的 例子 


The Pascal User Manual and Report] 清 楚 地 说 明了 数组 的 数组 与 多 维 数组 是 
等 同 的 ， 两 者 可 以 互 换 。Ada 语 言 在 这 方面 的 限制 更 严 一 些 ， 它 严格 地 维持 了 数 
组 的 数组 和 多 维 数组 之 间 的 区 别 。 在 内 存 中 它们 看 上 去 是 一 样 的 ， 但 在 哪个 类 型 
具有 兼容 性 以 及 可 以 被 赋值 给 一 个 数组 的 数组 的 单独 的 行 的 问题 上 ， 两 者 存在 明 
显 的 差别 。 这 有 点 像 在 int 和 float 之 间 选 择 变量 的 类 型 : 所 选择 的 类 型 最 大 限度 地 
反映 了 底层 的 数据 。 在 Ada 中 ， 当 具有 独立 可 变 的 下 标 时 ， 如 用 笛 卡 儿 坐 标 确定 
某 一 点 的 位 置 ， 一 般 会 选择 多 维 数组 。 当 数据 在 层次 上 更 加 鲜明 时 ， 如 某 个 数组 
有 具有 [12] 月 [5] 周 [7 日 这 样 的 形式 来 代表 某 事物 的 日 常 记录 ， 但 有 时 也 需要 同时 操 
纵 整 个 星期 或 月 时 ， 一 般 选 择 数组 的 数组 。 


小 启发 


在 不 同 的 语言 中 , “多 维 数组 ”的 含义 各 有 什么 不 同 
Ada 语 言 标准 明确 说 明 数 组 的 数组 和 多 维 数组 是 不 一 样 的 。 


Pascal 语 言 标准 明确 说 明 数 组 的 数组 和 多 维 数 组 是 一 样 的 。 


C 语 言 里 面 只 有 一 种 别 的 语言 称 为 数组 的 数组 的 形式 ， 但 C 语 言 称 它 为 多 维 数 


C 语 言 的 方法 多 少 有 点 独特 : 定义 和 引用 多 维 数组 的 唯一 方法 就 是 使 用 数组 
的 数组 。 尽 管 C 语 言 把 数组 的 数组 当 作 是 多 维 数 组 ， 但 不 能 把 儿 个 下 标 范 围 如 中 


[jj[K] 合 并 成 Pascal 式 的 下 标 表 达 式 风格 如 [i,j,k]。 如 果 你 清楚 地 明白 自己 在 做 什 
么 ， 也 介意 产生 不 合 规范 的 程序 ， 可 以 把 条 [jj[KJ 这 样 的 下 标 值 计算 为 相应 的 偏 移 
量 ， 然 后 只 用 一 个 单一 的 下 标 [z] 来 引用 数组 。 当 然 ， 这 不 是 一 种 值得 推荐 的 做 
法 。 同 样 糟糕 的 是 ， 像 [i, j, kJ 这 样 的 下 标 形式 (由 逗号 分 隔 〉 是 C 语 言 合法 的 表达 
形式 ， 只 是 它 并 非 同时 引用 这 几 个 下 标 《〈 它 实际 上 所 引用 的 下 标 值 是 k， 也 是 就 
喜 号 表达 式 的 值 ) 。C 语 言 文 持 其 他 语言 中 一 般 称 作 “ 数 组 的 数组 ”的 内 容 ， 但 却 
称 它 为 多 维 数组 ， 这 样 就 模糊 了 两 者 的 边界 ， 使 许多 人 对 两 者 混 消 不 清 〈 如 图 9-7 
所 二 六 


在 C 语 言 中 ， 可 以 像 下 面 这 样 声明 一 个 10x20 的 多 维 字符 数组 : 
char carrot[10][20]; 
或 者 声明 一 种 看 上 去 更 像 “ 数 组 的 数组 ”形式 : 
typedef char vegetable[20]; 
Vegetable carrot[10]; 
不 论 哪 种 情况 ， 访 问 单个 字符 都 是 通过 carrot[il[j] 的 形式 ， 
编译 器 在 编译 时 会 把 它 解析 为 *(*(carrot + 站 +j) 的 形式 。 


图 9-7 数组 的 数组 


尽管 在 术语 上 称 作 “ 多 维 数 组 "”， 但 C 语 言 实 际 上 只 支持 “数组 的 数组 *"。 如 果 你 
的 思维 模式 可 以 把 数组 看 作 是 一 种 向 量 〈 即 某 种 对 象 的 一 维 数 组 ， 它 的 元 素 可 以 
是 另 一 个 数组 ) ， 就 能 极 大 简化 编程 语言 中 这 个 相当 复杂 的 领域 。 


小 启发 


C 语 言 中 的 数组 就 是 一 维 数组 


当 提 到 C 语 言 中 的 数组 时 ， 就 把 它 看 作 是 一 种 和 癌 量 vector) ， 也 就 是 某 种 对 


象 的 一 维 数组 ， 数 组 的 元 素 可 以 是 另 一 个 数组 。 


9.6.2 ”如 何 分 解 多 维 数组 


必须 仔细 注意 多 维 数组 是 如 何 分 解 为 几 个 单独 的 数组 的 。 如 果 我 们 声明 如 下 
的 多 维 数组 : 


int apricot[2][3][5]; 


可 以 按 图 9-8 所 示 的 任何 一 种 方法 为 它 在 内 存 中 定位 。 


int apricotl2] [L315] 


兼容 类 型 


Sizeof ( apricot ) 


Link A*p} [L315 = aprliaot 


Sizeof apricot[i] ) 


apricot[01] apricot[1] 


Lnt Cre) [FB] apricget Ta] 


sizeof( apricot [i] [j] ) 


apricot[O][O] apricot[O1[1] | apricoet[01[2] | apricot[1][0] | apricot[1][2] apricot[11[2] 


jit WE = SprieoE Ti1 [3] 


Sizeof apricot [1] [] [k] ) 


| 


EE 计 三 避 BELES [让] [时 TTT 贡 | 


图 9-8 多维 数组 的 存储 


正常 情况 下 ， 赋 值 发 生 在 两 个 相同 的 类 型 之 间 ， 如 int 与 int、double 与 double 


等 。 在 图 9-8 中 ， 可 以 看 到 在 “数组 的 数组 的 数组 "中 ， 每 一 个 单独 的 数组 都 可 以 看 
作 是 一 个 指针 。 这 是 因为 在 表达 式 中 的 数组 名 被 编译 絮 当 作 “ 指 向 数组 第 一 个 元 素 
的 指针 ”( 本 书 第 195 页 的 规则 1〉。 换 句 话 说 ， 不 能 把 一 个 数组 赋值 给 男 一 个 数 
组 ， 因 为 数组 作为 一 个 整体 不 能 成 为 赋值 的 对 象 。 之 所 以 可 以 把 数组 名 赋值 给 一 
个 指针 ， 就 是 因为 这 个 “在 表达 式 中 的 数组 名 被 编译 器 当 作 一 个 指针 ?的 规则 。 


指针 所 指向 的 数组 的 维 数 不 同 ， 其 区 别 会 很 大 。 使 用 上 面 例子 中 的 声明 : 


i 

将 会 使 r 和 t 分 别 指向 它们 各 自 的 下 一 个 元 素 〈 两 者 所 指向 的 元 素 本 里 都 是 数 
组 )。 它 们 所 增长 的 步 长 是 很 不 相同 的 ， 因 为 r 所 指向 的 数组 元 素 的 大 小 是 t 所 指 
回 的 数组 的 元 素 大 小 的 3 倍 。 


编程 挑战 
数组 万 岁 ! 


使 用 下 面 的 声明 : 


int apricot[2][3][5]; 


int (*r)[5] = apricot[68]; 
int *t = apricot[6][6]; 


编写 一 个 程序 ， 打 印 出 r 和 t 的 十 六 进 制 初始 值 ( 使 用 printf 的 %x 转 换 符 ， 打 印 
十 六 进 制 值 ) ， 对 这 两 个 指针 进行 自 增 “++) 操作 ， 并 打印 它们 的 新 值 。 


在 运行 程序 之 前 ， 预 测 一 下 指针 每 次 增长 的 步 长 是 多 少 字 节 ， 可 参考 图 9-8。 


9.6.3 内存 中 数组 是 如 何 布局 的 


在 C 语 言 的 多 维 数组 中 ， 最 右边 的 下 标 是 最 先 变化 的 ， 这 个 约定 被 称 为 “ 行 主 
序 ”"”。 由 于 “ 行 / 列 主 序 ” 这 个 术语 只 适用 于 恰好 是 二 维 的 多 维 数组 ， 所 以 更 确切 的 
术语 是 “最 右 的 下 标 先 变化 "， 如 图 9-9 所 示 。 绝 大 部 分 语言 都 采用 了 这 个 约定 ， 但 
Fortran 却 是 一 个 主要 的 例外 ， 它 采用 了 “最 左 的 下 标 先 变化 ”"， 也 就 是 “ 列 主 序 ”。 
在 不 同 的 下 标 变化 约定 中 ， 多 维 数组 在 内 存 中 的 布局 也 不 相同 。 事 实 上 ， 如 果 把 
一 个 C 语 言 的 矩阵 传递 给 一 个 Fortran 程 序 ， 算 阵 就 会 被 自动 转 置 一 一 这 是 一 个 非 
常 厉害 的 邪门 密 稀 ， 偶 尔 还 真 会 用 到 。 


最 低地 址 车 高 地 址 
C inta[2][3] a[OJ[0] a[OJ[1] a[0][2] a[1J[0] a[1J[1] a[l][2] 最 右 的 标 先 变化 
Fortran dima(2,3) al) a(2,1)” a(1,2) a(2,2) al3) ”a(2,3) 最 左 的 下 标 先 变化 


图 9-9 行 主 序 vs. 列 主 序 


在 C 语 言 中 ， 多 维 数 组 最 大 的 用 途 是 存储 多 个 字符 串 。 有 人 指出 “最 右边 的 下 
标 先 变 化 ”在 这 方面 具有 优势 每 个 字符 串 中 相 邻 的 字符 在 内 存 中 也 相 邻 存储 〉。 
但 在 “最 左边 的 下 标 先 变化 ”的 多 维 数 组 (如 Fortran〉 中 ， 和 情况 并 不 如 此 。 


9.6.4 如 何 对 数组 进行 初始 化 


在 最 简单 的 情况 下 ， 一 维 数组 可 以 通过 把 初始 值 都 放 在 一 对 花 括 号 内 来 完成 
初始 化 。 如 果 在 数组 的 定义 里 未 标明 它 的 长 度 ，C 语 言 约定 按照 初始 化 值 的 个 数 
来 确定 数组 的 长 度 。 


float banana[5] = { 8.6, 1.6, 2.72, 3.14, 25.625 }; 
float honeydew[] = { 6.6, 1.6, 2.72, 3.14, 25.625 }; 


只 能 够 在 数组 声明 时 对 它 进 行 整 体 的 初始 化 。 之 所 以 存在 这 个 限制 ， 并 没有 
过 硬 的 理由 。 


多 维 数组 可 以 通过 髓 套 的 花 括 号 进行 初始 化 : 


short cantaloupe[2][5] = { 
{16， 12， 3， 4， -5}, 
{31, 22，6，6， -5}， 


}; 
int rhubarb[][3] = { {6, 6, 6}, {1, 1, 1}, }; 


注意 ， 既 可 以 在 最 后 一 个 初始 化 值 的 后 面 加 一 个 逗号 ， 也 可 以 省 略 它 。 同 
时 ， 也 可 以 省 略 最 左边 下 标的 长 度 〈 也 只 能 是 最 左边 的 下 标 ) ， 编 译 器 会 根据 初 
始 化 值 的 个 数 推断 出 它 的 长 度 。 


如 果 数 组 的 长 度 比 所 提供 的 初始 化 值 的 个 数 要 多 ， 剩 余 的 几 个 元 素 会 自动 设 
置 为 0。 如 果 元 素 的 类 型 是 指针 ， 那 么 它们 被 初始 化 为 NULL; 如 果 元 素 的 类 型 是 
float， 那 么 它们 被 初始 化 为 0.0。 在 流行 的 耻 EE 754 标 准 浮 点 数 实现 中 (IBM PC 和 
Sun 系 统 都 使 用 了 这 个 标准 ) ，0.0 和 0 的 位 模式 是 完全 一 样 的 。 


编程 挑战 


检查 位 模式 


写 一 个 简单 的 程序 ， 检 查 在 你 的 系统 中 ， 浮 点 数 0.0 的 位 模式 是 否 与 整 型 数 0 
的 位 模式 相同 。 


下 面 是 一 种 初始 化 二 维 字符 串 数组 的 方法 : 


char vegetables[][9] = { "beet", 
"barley", 
"basil", 
"broccoli", 
"beans" }; 


一 种 有 用 的 方法 是 建 并 指针 数组 。 字 符 串 常量 可 以 用 作 数 组 初始 化 值 ， 编 译 
器 会 正确 地 把 各 个 字符 存储 于 数组 中 的 地 址 。 因 此 ; 


char *vegetables[] = { "carrot", 
"celery", 
"corn", 
"cilantro", 
"crispy fried patatoes”}; /* 没 问题 */ 


注意 它 的 初始 化 部 分 与 字符 “数组 的 数组 ”初始 化 部 分 是 一 样 的。 只 有 字符 串 
常量 才 可 以 初始 化 指针 数组 。 指 针 数 组 不 能 由 非 字 符 串 的 类 型 直接 初始 化 : 


int *weights[] = { /* 无 法 成 功 编译 。*/ 
{1, 2， 35 4， 5}， 
{6, 7}, 
{8，9，16} 
}; /* 无 法 成 功 编译 */ 


如 果 想 用 这 种 方法 对 数组 进行 初始 化 ， 可 以 创建 几 个 单独 的 数组 ， 然 后 用 这 
些 数组 名 来 初始 化 原先 的 数组 。 


int row 1[] = {1，2，3，4，5，-1}; /* -1 是 行 结束 标志 */ 
int row 2[] = {6, 7, -1}; 
int row 3[] = {8, 9, 106, -1}; 


int *weight[] = { 


下 一 间 在 讨论 指针 时 会 对 这 方面 的 内 容 作 进一步 的 描述 。 不 过 ， 现 在 让 我 们 
还 是 先 轻松 一 下 。 


9.7 轻松 一 下 一 一 软件 /硬件 平衡 


要 想 成 为 一 名 成 功 的 程序 员 ， 必 须 对 软件 /硬件 的 平衡 有 一 个 良好 的 理解 。 这 
里 有 一 个 例子 ， 我 是 从 朋友 的 朋友 那里 听 来 的 。 许 多 年 以 前 ， 有 一 家 大 型 的 邮购 
公司 使 用 一 台 旧 的 IBM 古 董 级 的 大 型 机 来 维护 客户 姓名 和 地 址 数据 库 。 这 种 机 器 
根本 没有 批 处 理 控 制 机 制 (Batch Control Mechanism) 。 


这 种 IBM 系 统 已 经 过 时 了 ， 所 以 它 0 de 看 
看 这 是 什么 年 代 的 事情 ，Burroughs (或 称 为 “Rubs-rough”[ 使劲 地 擦 ] ， 这 是 人 
们 对 它 的 字母 顺序 稍 作 变换 后 的 戏称 〉 自 20 世 纪 80 年 代 中 期 ee J 
Ce 匿 迹 了 。 当 时 正 是 数据 处 理 大 行 其 道 的 时 候 ， 这 人 台 IBM 机 器 一 
直 忙 个 不 停 ， 连 夜班 也 加 上 了 。 夜 班 操作 员 的 唯一 任务 就 是 等 待 ， 直 至 白天 的 工 
作 结 束 ， 然 后 在 夜间 每 隔 一 定时 间 局 动 一 个 新 的 任务 ， 总 共 要 局 动 4 个 任务 。 


数据 处 理 的 管理 者 Rude Goldberg 认 识 到 ， 如 果 他 可 以 找到 一 种 方法 让 机 器 每 
隔 一 定时 间 启 动 一 个 批 处 理 任务 ， 他 就 可 以 解放 夜班 操作 员 ， 让 他 去 上 白班 。 
IBM 表 示 可 以 为 系统 的 软件 进行 升级 ， es 但 索 价 高 达 数 万 美元 。 
没 人 愿意 为 这 样 一 台 快 被 淘汰 的 机 器 花 这 么 多 的 钱 。 这 人 台 机 器 被 分 成 几 
分 ， 每 个 部 分 都 与 一 个 终端 相连 。 这 样 就 可 a 机 器 的 每 一 
分 都 由 不 同 的 终端 进行 启动 。 每 个 终端 都 可 以 进行 独立 设置 ， 只 要 一 按 回 车 键 ， 
任务 就 会 启动 。 管 理 者 接着 设计 并 建造 了 4 个 设备 ， 称 之 为 “幽灵 手指 ”， 如 图 9-10 
所 示 。 


部 
部 


乐高 积木 


图 9-10 ”幽灵 手指 


每 天 晚上 ， 在 每 个 终端 的 控制 下 启动 “幽灵 手指 "。 凌 晨 2 时 ， 第 一 个 闸 钟 响 
闹钟 上 的 发 条 会 卷 紧 一 根 线 ， 拉 出 一 个 栓 ， 使 一 块 乐高 积木 块 掉 到 回 车 键 
。 然 后 乐高 积木 块 迅速 跳 起 ， 以 免 键 反弹 或 重复 击 键 ， 这 样 任务 便 启动 了 。 


二 


尽管 每 个 人 都 对 这 种 设计 感到 好 笑 ， 但 它 整整 工作 了 6 个 月 ， 直 到 新 系统 上 
马 ! 新 系统 投入 使 用 还 没 几 个 小 时 ，Burroughs 和 IBM 的 系统 工程 师 都 请 求 得 到 这 
样 一 块 幸 存 下 来 的 Rube Goldberg 设 备 。 这 正 是 成 功 软件 /硬件 平衡 的 实质 所 在 。 


解决 方案 


玩 转 数 组 /指针 参数 


char ga[] = "abcdefghijklm"; 


void my_array_func(char ca[16]) 

{ 
printf(”addr of array param = %#x \n",&ca); 
printf(" addr (ca[6]) = %#x Nn"，&(ca[6])); 
printf(" addr (ca[1]) = %#x \n", &(ca[1])); 
printf(" ++ca = %#x \nN\n", ++ca); 


} 
void my_pointer func(char *pa) 


printf(" addr of ptr param = %#x \n", &pa); 
printf(" addr (pa[6]) = %#x \n", &(pa[0])); 
printf(" addr (pa[1]) = %#x \n", &(pa[1])); 
printf(" ++pa = %#x \n", ++pa); 

} 


main() 


printf(" addr of global array = %#x \n", &ga); 
printf(" addr (ga[6]) = %#x \n", &(ga[0])); 
printf(" addr (ga[1]) = %#x \n\n", &(ga[1])); 
my_array_func(ga); 

my_pointer_func(ga); 


输出 结果 如 下 : 


% a.out 
addr of global array = 6x269060 
addr (ga[6]) = 6x26966 
addr (ga[1]) = 6x26961 


addr of aprray param = @xeffffal4 
addr (ca[6]) = 9x26966 

addr (ca[1]) = 6x26961 

++Ca = 0OX26961 


addr of ptr param = 6xeffffa14 
addr (pa[6]) = 96x26966 

addr (pa[1]) = 6x26961 

++pa = 9X26961 


初 看 上 去 似乎 有 点 奇怪 ， 数 组 参数 的 地 址 和 数组 参数 的 第 一 个 元 素 的 地 址 竟 
然 不 一 样 ， 但 事实 就 是 如 此 。 


你 可 以 跟 C 程 序 员 新 手打 赌 ， 看 看 在 这 种 情况 下 用 sizeofO 会 是 什么 结果 ， 你 
或 许可 以 启 一 大 把 钱 。 


[1] 对 外 牛角 尖 的 人 而 言 , 它 确实 存在 几 个 极 少见 的 例外 ， 就 是 把 数组 作为 一 个 
整体 来 考虑 。 在 下 列 情况 下 ， 对 数组 的 引用 不 能 用 指向 该 数组 第 一 个 元 素 的 指针 
来 代 莹 : 
。 数 组 作为 sizeof0 的 操作 数 一 显 然 此 时 需要 的 是 整个 数组 的 大 小 ， 而 不 是 指 
针 所 指向 的 第 一 个 元 素 的 大 小 ; 
。 使 用 & 操 作 符 取 数组 的 地 址 ; 
。 数 组 是 一 个 字符 串 或 宽 字符 申 ) 常量 初始 值 。 


[2] The Pascal User Manual and Reporb Spring-Verlag, 1975， 第 39 页 。 


第 10 革 骨 论 指针 


干 万 不 要 态 了 ， 妆 你 把 一 个 手指 指向 别人 的 时 候 ， 你 还 有 男 外 3 个 手指 指向 
了 你 自己 .……… 


一 一 多疑 间谍 的 格言 


10.1 多 维 数组 的 内 存 布局 


多 维 数组 在 系统 编程 中 并 不 第 用 。 所 以 ， 之 不 奇怪 的 是 ，C 语 言 并 未 像 其 他 
语言 所 要 求 的 那样 定义 了 详细 的 运行 时 程序 来 文 持 这 个 特性 。 对 于 某 些 结构 《如 
动态 数组 ) ， 程 序 员 必 须 使 用 指针 显 式 地 分 配 和 操纵 内 存 ， 而 不 是 由 编译 占 上 自动 
完成 。 另 外 还 有 一 些 结构 〈 作 为 参数 的 多 维 数组 ) ， 在 C 语 言 中 并 没有 一 般 的 形 
式 来 表达 。 本 章 将 讲述 这 些 主题 。 现 在 ， 每 个 人 都 已 经 熟悉 了 多 维 数组 在 内 存 中 
的 布局 。 假 设 我 们 具有 以 下 声明 : 


char pea[4][6]; 


有 些 人 把 二 维 数组 看 作 是 排列 在 一 张 表格 中 的 一 行 行 的 一 维 数组 ， 如 图 10-1 
所 示 。 


peal11[2] 


图 10-1 假想 中 的 二 维 数组 内 存 布局 


事实 上 系统 绝 不 允许 程序 按照 这 种 方式 来 存储 数据 。 单 个 元 素 的 存储 和 引用 
实际 上 是 以 线性 形式 排列 在 内 存 中 的 ， 如 图 10-2 所 示 。 


中 


peal0] peall] peal2] peal3] 


图 10-2 实际 上 的 二 维 数组 内 存 布局 


数组 下 标的 规则 告诉 我 们 如 何 计算 左 值 pea[ilj]: 首先 找到 pea[ 记 的 位 置 ， 然 
后 根据 偏 移 量 [取得 字符 。 因 此 ，pealij[j] 将 被 编译 器 解析 为 : 


*(*(pea + i) + j) 


但 是 (这 正 是 关键 所 在 ! ) ，pea[i] 的 意思 将 随 pea 定 义 的 不 同 而 变化 。 我 很 
快 将 解释 这 个 表达 式 ， 但 首先 让 我 们 看 一 下 Ci 语言 中 最 常见 、 最 重要 的 数据 结 
构 : 指向 字符 串 的 一 维 指针 数组 。 


10.2 ”指针 数组 就 是 Tliffe 向 量 


可 以 通过 声明 一 个 一 维 指针 数组 ， 其 中 每 个 指针 指向 一 个 字符 串 趾 来 取得 类 
似 二 维 字符 数组 的 效果 。 这 种 形式 的 声明 如 下 : 


char *pea[4]; 


软件 信条 


注意 声明 的 语法 


注意 char *turnip[23] 把 tumip 声 明 为 一 个 具有 23 个 元 素 的 数组 ， 每 个 元 素 的 类 
型 是 一 个 指向 字符 的 指针 《或 者 一 个 字符 串 一 一 单纯 从 声明 中 无 法 区 分 两 者 ) 。 
可 以 假想 它 两 边 加 上 了 括号 一 一 (char *)tunip[23]。 这 跟从 左 至 右 读 时 看 上 去 的 样 
子 ( 一 个 指向 “具有 23 个 字符 类 型 元 素 的 数组 ”的 指针 〉 不 一 样 。 这 是 因为 下 标 方 
括号 的 优先 级 比 指针 的 星 号 高 。 关 于 声明 语法 的 分 析 ， 第 3 章 已 经 作 了 详细 介 


绍 。 


用 于 实现 多 维 数组 的 指针 数组 有 多 种 名 字 ， 如 “Tliffe 向 量 ”display” 或 “dope 问 
量 ”。display 在 英国 也 用 来 表示 一 个 指针 问 量 ， 用 于 激活 一 个 在 词法 上 封闭 的 过 程 
的 活动 记录 《作为 “一 个 静态 链接 后 面 跟 一 个 链表 ”的 奉 代 方 案 ) 。 这 种 形式 的 指 
针 数 组 是 一 种 强大 的 编程 技巧 ， 在 C 语 言 之 外 取得 了 广泛 的 应 用 。 图 10-3 显 示 了 
这 样 的 结构 。 


ES 


[ID [4 [5] 
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图 10-3 ”指向 字符 串 的 指针 数组 
这 种 数组 必须 用 这 样 一 种 指针 进行 初始 化 ， 即 指针 指向 为 字符 串 分 配 的 内 
存 。 既 可 以 在 编译 时 用 一 个 常量 初始 值 ， 也 可 以 在 运行 时 用 下 面 这 样 的 代码 进行 
初始 化 : 


for(j = 6j j <= 4; j++) 
pea[j] = malloc(6); 


另 一 种 方法 是 一 次 性 地 用 malloc 分 配 整 个 xxy 个 数据 的 数组 : 


malloc(row size * column size * sizeof(char) ); 


然后 使 用 一 个 循环 ， 用 指针 指向 这 块 内 存 的 各 个 区 域 。 整 个 数组 保证 能 够 存 
储 在 连续 的 内 存 中 ， 即 按 C 分 配 静态 数组 的 次 序 存储 。 它 减少 了 调用 malloc 的 维护 
性 开销 ， 但 缺点 是 当 处 理 完 一 个 字符 串 时 无 法 单独 将 其 释放 。 


BE,.. 
软件 信条 


当 你 看 见 squash 身 咎 这样 的 形式 时 ， 你 不 知道 它 是 怎样 被 声明 的 ! 


两 个 下 标的 二 维 数组 和 一 维 指针 数组 所 存在 的 一 个 问题 是 : 当 你 看 到 
squash[i][j] 这 样 的 引用 形式 时 ， 你 并 不 知道 squash 是 声明 为 : 


int squash[23][12];  ”/* int 类 型 的 二 维 数 组 */ 


或 是 

int *squash[23]; /* 23 个 int 类 型 指针 的 Iliffe 向 量 */ 
或 是 

int **squash; /* int 类 型 的 指针 的 指针 */ 
甚至 是 


int (*squash)[12];  /* 类 型 为 int 数 组 〈 长 度 为 12) 的 指针 */ 


这 有 点 类 似 于 在 函数 内 部 无 法 分 辨 传递 给 函数 的 实 参 完 竟 是 一 个 数组 还 是 一 
个 指针 。 当 然 ， 出 于 同样 的 理由 : 作为 左 值 的 数组 名 被 编译 器 当 作 是 指针 。 


在 上 面 几 种 定义 中 ， 都 可 以 使 用 squash[i][j] 这 样 的 形式 ， 尽 管 在 不 同 的 情况 
中 访问 的 实际 类 型 并 不 相同 。 


与 数组 的 数组 一 样 ， 一 个 Tliffe 向 量 中 的 单个 字符 也 是 使 用 两 个 下 标 来 引用 数 
组 中 的 元 素 〈 如 pea[i]j]〉。 指 针 下 标 引 用 的 规则 告诉 我 们 pea[ij 上 j] 被 编译 器 解释 
为 : 


*(*(pea + i) + j) 


是 不 是 觉得 很 熟悉 ? 应 该 是 这 样 。 它 和 一 个 多 维 数组 引用 的 分 解 形式 完全 一 
样 ， 在 许多 C 语 言 图 书 中 就 是 这 样 解释 的 。 然 而 ， 这 里 存在 一 个 很 大 的 问题 。 尽 
管 这 两 种 下 标 形式 在 源 代码 里 看 上 去 是 一 样 ， 而 且 被 编译 器 解释 为 同一 种 指针 表 
达 式 ， 但 它们 在 各 自 的 情况 下 所 引用 的 实际 类 型 并 不 相同 。 表 10-1 和 表 10-2 显 示 
了 这 种 区 别 。 


表 10-1 一 个 数组 的 数组 char a[4][6] 


一 个 数组 的 数组 
在 编译 器 符号 表 中 ，a 的 地 址 为 9980 


char a[4][6] 


运行 时 步骤 1: 取 i 的 值 ， 把 它 的 长 度 调整 为 一 行 的 宽度 (这 里 是 6) ， 然 后 加 到 9980 上 。 
运行 时 步骤 2: 取 j 的 值 ， 把 它 的 长 度 调整 为 一 个 元 素 的 宽度 (这 里 是 1) ， 然 后 加 到 前 面 所 得 出 的 结果 


运行 


送行 时 步骤 3: 从 地 址 (9980+i\*scale-factor1+j\*scale-factor2〉 中 取出 内 容 。 
ali]D] | 
[中 


1 


afo] af1] af2] af3] 
char a[4][6] 的 定义 表示 a 是 一 个 包含 4 个 元 素 的 数组 ， 每 个 元 素 是 一 个 char 类 型 的 数组 〈 长 度 为 6) 。 所 以 
查找 到 第 4 个 数组 的 第 i 个 元 素 ( 前 进 i*6 字 节 ) ， 然 后 找到 数组 中 的 第 j 个 元 素 。 


表 10-2 字符 串 指 针 数 组 中 的 char *p[4] 


char \*p[4] 一 个 字符 串 指 针 数 组 

在 编译 器 的 符号 表 中 ， p 的 地 址 为 4624 

运行 时 步骤 1: 取 i 的 值 ， 乘 以 指针 的 宽度 (4 字 节 ) ， 并 把 结果 加 到 4624 上 。 
运行 时 步骤 2:， 从 地 址 〈4624+4xi) 取出 内 容 ， 为 5081。 

运行 时 步骤 3: 取 j 的 值 ， 乘 以 元 素 的 宽度 〈 这 里 是 1 字 节 ) ， 并 把 结果 加 到 5081 上 。 
运行 时 步骤 4， 从 地 址 〈5081+j\*1) 取出 内 容 。 


p[i]0j] 
piD] 
0] 5081 + j*4 D] 
| 
44624 4624+i*4 5081 +1 +2 +3 +4 


char wp[4] 的 定义 表示 p 是 一 个 包含 4 个 元 素 的 数组 ， 每 个 元 素 为 一 二 人 指向 shear 的 指针 。 所 以 除非 指针 已 经 
指向 字符 或 字符 数组 ) ， 和 否则 查找 过 程 无 法 完成 。 假 定 每 个 指针 都 给 定 了 一 个 值 ， 那 么 查询 过 程 先 找 
容 。 

这 个 过 程 之 所 以 可 行 ， 是 因为 第 9 章 的 规则 2， 一 个 下 标 始终 相当 于 指针 的 偏 移 量 。 因 此 ，tumip[i] 选 择 一 
个 元 素 ， 也 就 是 一 个 指针 ， 然 后 使 用 下 标 [] 引 用 指针 ， 产 生 * (指针 +j ) ， 它 所 指向 的 是 一 个 单字 符 。 这 


仅仅 是 a[2] 和 p[2] 的 一 种 扩展 ， 它 们 的 结果 都 是 一 个 字符 ， 正 如 我 们 在 前 一 章 所 见 到 的 那样 。 


10.3 ”在 锯齿 状 数 组 上 使 用 指针 


lliffe 向 量 是 一 种 旧式 的 编译 器 编写 技巧 ， 最 初 用 于 Algol-60。 它 们 原先 用 于 
提高 数组 访问 的 速度 ， 以 及 在 内 存 有 限 的 机 器 中 只 存储 数组 的 部 分 数据 。 在 现代 
的 系统 中 ， 这 两 个 用 途 都 已 毫 无 必要 ， 但 lliffe 向 量 在 另外 两 个 方面 仍然 具有 价 
值 : 存储 各 行 长 度 不 一 的 表 以 及 在 一 个 函数 调用 中 传递 一 个 字符 串 数 组 。 如 果 需 
要 存储 50 个 字符 串 ， 每 个 字符 串 的 最 大 长 度 可 以 达到 255 个 字符 ， 可 以 声明 下 面 
的 二 维 数组 : 


char carrot[56][256] ; 


它 声 明了 50 个 字符 串 ， 其 中 每 一 个 都 保留 256 字 节 的 空间 ， 即 使 有 些 字 符 串 
的 实际 长 度 只 有 一 两 个 字 节 。 如 果 经 常 这 样 做 ， 内 存 的 浪费 会 很 大 。 一 种 替代 方 
法 就 是 使 用 字符 串 指 针 数 组 ， 注 意 它 的 所 有 第 二 级 数组 并 不 需要 长 度 都 相同 ， 如 
图 10-4 所 示 。 
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图 10-4 ”锯齿 状 字符 串 数组 


如 果 声 明 一 个 字符 串 指针 数组 ， 并 根据 需要 为 这 些 字符 串 分 配 内 存 ， 将 会 大 
大 节省 系统 资源 。 有 些 人 把 它 称 作 “ 锯 齿 状 数 组 "， 原 因 是 它 右 端的 长 度 不 一 。 可 
以 通过 用 字符 串 指针 填充 Tliffe 向 量 来 创建 一 个 这 种 类 型 的 数组 。 字 符 串 指针 既 可 
以 直接 使 用 现 有 的 ， 也 可 以 通过 分 配 内 存 创建 一 份 现 有 字符 串 的 副本 。 图 10-5 显 
示 了 这 两 种 方法 。 


char xturnip[UMPTEEN] 


char my _ string[] = "your message here "; 


/* 共 学 字符 出 */ /* 复制 字符 蝇 */ 
turnip[i] = &my string[0]; tL] 运 


malloc( strlen(my string) + 工 )， 


strcpy (turnip[j], my string); 


图 10-5 ”创建 一 个 锯齿 状 数 组 


只 要 有 可 能 ， 尺 量 不 要 选择 复制 整个 字符 串 的 方法 。 如 果 需 要 从 两 个 不 同 的 
数据 结构 访问 它 ， 复 制 一 个 指针 比 复制 整个 数组 快 得 多 ， 空 间 也 节省 很 多 。 男 一 
个 可 能 影响 性 能 的 因素 是 Tliffe 向 量 可 能 会 使 字符 串 分 配 于 内 存 中 不 同 的 页 面 中 。 
这 就 违反 了 局 部 引用 的 规则 《一 次 读 写 的 数据 位 于 同一 页 面 上 ) ， 并 导致 更 加 频 
繁 的 页 面 交 换 ， 具 体 如 何 取 决 于 怎样 访问 数据 以 及 访问 的 频 度 。 


小 启发 
数组 和 指针 参数 是 如 何 被 编译 器 修改 的 


“数组 名 被 改写 成 一 个 指针 参数 ”的 规则 并 不 是 递归 定义 的 。 数 组 的 数组 会 被 
改写 为 “数组 的 指针 ， 而 不 是 “指针 的 指针 ”。 


实 参 所 匹配 的 形 参 


数组 的 数组 char c[8][16]; char(*)[16] ; 数组 指针 
间 针 数组 char *c[15]; char **cC; 指针 的 指针 
数组 指针 〈 行 指针 ) char (*c)[64]; char (*c)[64]; 不 改变 


指针 的 指针 char **C; char **c; 不 改变 


之 所 以 能 在 main0) 函 数 中 看 到 char **argv 这 样 的 参数 ， 是 因为 argv 是 个 指针 数 
组 ( 即 char *argv[]) 。 这 个 表达 式 被 编译 器 改写 为 指向 数组 第 一 个 元 素 的 指针 ， 
也 就 是 一 个 指向 指针 的 指针 。 如 果 argv 参 数 事实 上 被 声明 为 一 个 数组 的 数组 〈 也 
就 是 char argv[10][15]) ， 它 将 被 编译 器 改写 为 char(* argv)[15]〈 也 就 是 一 个 字符 
数组 指针 ) ， 而 不 是 char **argv。 


只 适用 于 高 级 学 生 的 材料 


让 我 们 花 点 时 间 ， 回 顾 一 下 图 9-8， 看 看 图 左边 标 为 “兼容 类 型 ”的 变量 是 如 何 
与 对 应 的 被 声明 为 函数 参数 的 数组 (如 上 表 所 示 〉 正 确 匹 配 的 。 


这 并 不 令 人 吃惊 。 图 9-8 显 示 了 表达 式 中 的 数组 名 是 如 何 变 成 指针 的 ， 上 面 的 
表格 显示 了 作为 函数 参数 的 数组 名 是 如 何 变 成 指针 的 。 这 两 种 情况 都 受 一 个 相似 
规则 的 支配 ， 殊 是 在 特定 的 上 下 文 环境 中 ， 数 组 名 被 改写 为 指针 。 


图 10-6 显 示 了 所 有 有 效 代 码 的 组 合 。 我 们 可 以 发 现 : 
。 3 个 函数 都 接受 同样 类 型 的 参数 ， 就 是 一 个 [2][3][5] int 型 三 维 数组 或 是 一 个 指 


向 [3][5] int 型 二 维 数组 的 指针 
。 3 个 变量 (apricot p、*#*q) 都 匹配 所 有 3 个 函数 的 参数 声明 。 


编程 挑战 


检验 一 下 


输入 图 10-6 中 的 C 代 码 ， 亲 手 运 行 一 下 。 


了 15] 


my funcetlion Zt int Erult [] [号 ] 号] 


my Function 3 Lmnt (“Frm la LS] 


unk aprLeoGl2] [ S15 


my_function 1( apricot 


my function 2( apricot 


my_function 3( apricot 


int (*p)[3][5] 


my_function 1( 
my fanction 2 


my function 3( 


Tr (en) LB2] [3]. ES &apricot; 


wy .Funcetlon ,二 wo 
my functiom 2( *q 


my ftunctionm 3{ wa 


图 10-6 ”所 有 有 效 代码 的 组 合 


10.4 加 函数 传递 一 个 一 维 数 组 


在 C 语 言 中 ， 任 何 一 维 数组 均 可 以 作为 函数 的 实 参 。 形 参 和 被 改写 为 指 问 数组 
第 一 个 元 素 的 指针 ， 所 以 需要 一 个 约定 来 提示 数组 的 长 度 。 一 般 有 两 个 基本 方 
法 : 


。 增加 一 个 额外 的 参数 ， 表 示 元 素 的 数目 〈argc 就 是 起 这 个 作用 ) ， 

。 赋予 数组 最 后 一 个 元 素 一 个 特殊 的 值 ， 提 示 它 是 数组 的 尾部 (字符 串 结尾 
的 \0' 字 符 就 是 起 这 个 作用 ) 。 这 个 特殊 值 必须 不 会 作为 正常 的 元 素 值 在 数组 
中 出 现 。 


二 维 数 组 的 情况 要 复杂 一 些 ， 数 组 被 改写 为 指向 数组 第 一 行 的 指针 。 现 在 需 
要 两 个 约定 ， 其 中 一 个 用 于 提示 每 行 的 结束 ， 男 一 个 用 于 提示 所 有 行 的 结束 。 提 
示 单 行 结束 可 以 使 用 一 维 数组 所 用 的 两 种 方法 ， 提 示 所 有 行 结束 也 可 以 这 样 。 我 
们 所 接收 的 是 一 个 指 疝 数 组 第 一 个 元 素 的 指针 。 每 次 对 指针 执行 自 增 操作 时 ， 指 
针 就 指向 数组 中 下 一 行 的 起 始 位 置 ， 但 怎么 知道 指针 到 达 了 数组 的 最 后 一 行 呢 ? 
我 们 可 以 增加 一 个 额外 的 行 ， 行 内 所 有 元 素 的 值 都 是 不 可 能 在 数组 正常 元 素 中 出 
现 的 ， 能 够 提示 数组 超出 了 范围 。 当 对 指针 进行 自 增 操 作 时 ， 要 对 它 进 行 检 查 ， 
看 看 它 是 否 到 达 了 那 一 行 。 另 一 种 方法 是 ， 定 义 一 个 额外 的 参数 ， 提 示 数 组 的 行 
数 。 


10.5 ”使 用 指针 问 函 数 传递 一 个 多 维 数组 


使 用 上 一 节 所 描述 的 笨拙 方法 ， 可 以 解决 标记 数组 范围 这 个 难题 。 但 是 还 存 
企 一 个 问题 ， 束 是 如 何在 函数 内 部 声明 一 个 二 维 数组 参数 ， 这 才 古 真正 的 麻烦 所 
在 。C 语 言 没 有 办 法 表达 “这 个 数组 的 边界 在 不 同 的 调用 中 可 以 变化 ”这 个 概念 。C 
编译 器 必须 要 知道 数组 的 边界 ， 以 便 为 下 标 引 用 产生 正确 的 代码 。 从 技术 上 说 ， 
也 可 以 在 运行 时 处 理 才 知道 数组 的 边界 ， 而 且 很 多 其 他 语言 就 是 这 样 做 的 ， 但 这 
种 做 法 违背 了 C 语 言 的 设计 理念 。 


我 们 能 够 采取 的 最 好 方法 就 是 放弃 传递 二 维 数组 ， 把 array[xj[y] 这 样 的 形式 改 
写 为 一 个 一 维 数 组 array[x+1]， 它 的 元 素 类 型 是 指 癌 array[y] 的 指针 。 这 样 就 改变 
了 问题 的 性 质 ， 而 改变 后 的 问题 是 我 们 已 经 解决 了 的 。 在 数组 最 后 的 那个 元 素 
array[x+1] 里 存储 一 个 NULL 指 针 ， 提 示 数 组 的 结束 。 


RE ,,. 
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在 C 语 言 中 ， 没 有 办 法 向 函数 传递 一 个 普通 的 多 维 数组 


这 是 因为 我 们 需要 知道 每 一 维 的 长 度 ， 以 便 为 地 址 运算 提供 正确 的 单位 长 
度 。 在 C 语 言 中 ， 我 们 没有 办 法 在 实 参 和 形 参 之 间 交 流 这 种 数据 ( 它 在 每 次 调用 
时 会 改变 ) 。 因 此 ， 你 必须 提供 除了 最 左边 一 维 以 外 的 所 有 维 的 长 度 。 这 样 就 把 
实 参 限制 为 除 最 左边 一 维 外 所 有 维 都 必须 与 形 参 匹 配 的 数组 。 


invert_in place(int a[][3][5]); 


用 下 面 两 种 方法 调用 都 可 以 : 


int b[16][3][5]; invert_in_place(b); 
int b[999][3][5]; invert_in place(b); 


但 像 下 面 这 样 任意 的 三 维 数组 : 


int fails1[16][5][5]; invert_in place(fails1); /* 无 法 通过 编译 */ 


int fails2[999][3][6]; invert_in place(fails2); /* 无 法 通过 编译 */ 


却 是 无 法 通 一 关 的 。 


ee 你 无 法 回 函 数 传 
递 一 个 普通 的 多 维 数组 。 可 以 向 函数 传递 预先 确定 长 度 的 特殊 数组 ， 但 这 个 方法 
并 不 外 Nd 般 情 况 。 最 显而易见 的 方法 是 声明 一 个 方法 1 这 样 的 原型 。 


10.5.1 方法 1 


| my_function(int my_array[16][26]); 


这 是 最 简单 的 方法 ， 但 同时 也 是 作用 最 小 的 方法 。 因 为 它 迫 使 函数 只 处 理 10 
行 20 列 的 int 型 数组 。 我 们 想 要 的 是 一 个 确定 更 为 普通 的 多 维 数组 形 参 的 方法 ， 使 
函数 能 够 操作 任意 长 度 的 数组 。 注 意 ， 多 维 数组 最 主要 的 一 维 的 长 度 〈 最 左边 一 
维 ) 不 必 显 式 写 明 。 所 有 的 函数 都 必须 知道 数组 其 他 维 的 确切 长 度 和 数组 的 基地 
址 。 有 了 这 些 信 息 ， 它 就 可 以 一 次 “ 跳 过 ”一 个 完整 的 行 ， 到 达 下 一 行 


10.5.2 方法 2 


我 们 可 以 合法 地 省 略 第 一 维 的 长 度 ， 像 下 面 这 样 声 明 多 维 数组 : 


my_function(int my_array[][28]); 
但 这 样 做 法 仍 不 够 充分 ， 因 为 每 一 行 都 必须 正好 是 20 个 整数 的 长 度 。 函 数 也 


可 以 类 似 地 声明 为 : 


my_function(int(*my_array)[208]); 


参数 列表 中 (* my_array) 周围 的 括号 是 绝对 需要 的 ， 这 样 可 以 确保 它 被 翻 
译 为 一 个 指向 20 个 元 素 的 int 数 组 的 指针 ， 而 不 是 一 个 由 20 个 int 指 针 元 素 构 成 的 数 
组 。 同 样 ， 我 们 对 “最 右边 一 维 的 长 度 必须 为 20”* 感 到 不 快 。 


| 
软件 信条 


一 致 性 数组 


按照 最 初 的 设计 ，Pascal 也 具有 和 C 语 言 同 种 的 功能 缺陷 一 一 没有 办 法 向 同一 
个 函数 传递 长 度 不 同 的 数组 。 事 实 上 Pascal 的 情况 更 糟 ， 因 为 它 甚 至 不 能 文 持 一 
维 数 组 的 情况 ， 而 C 语 言 倒 可 以 实现 。 数 组 边界 是 函数 原型 的 一 部 分 ， 如 果实 参 
数组 的 长 度 不 能 与 形 参 完全 匹配 ， 就 会 产生 一 个 类 型 不 匹配 错误 。 像 下 面 这 样 的 
Pascal 代 码 是 非法 的 : 


var apple : array[1..16] of integer; 
precedure invert( a: array[1..15] of integer; 
invert(apple); {无 法 通过 编译 }L?] 


为 了 弥补 这 个 缺陷 ，Pascal 标 准 化 语言 协会 构思 了 一 个 概念 ， 称 为 一 致 性 数 
或 许 取 名 为 “confuse’em arrays”( 混 淆 他 们 的 数组 ) 更 
为 合适 。 它 是 一 种 协议 ， 用 于 实 参 和 形 参 之 间 数 组 长 度 的 通信 。 对 于 一 般 的 程序 
员 而 言 ， 这 个 方法 的 工作 原理 并 非 一 眼 可 见 ， 而 且 它 也 不 存在 于 其 他 的 主流 语言 
中 。 你 必须 像 下 面 这 样 编写 代码 : 


precedure a(fname: array[lo..hi: integer] of char); 


组 (conformation arrays) 


数据 名 lo 和 hi 当然 也 可 以 取 其 他 的 名 字 〉 所 对 应 的 数组 边界 在 每 次 调用 时 
根据 实际 参数 进行 填充 。 经 验 显 示 ， 许 多 程序 员 认 为 这 种 形式 只 会 把 事情 搞 得 更 
乱 。 在 解决 了 普通 情况 的 数组 参数 传递 问题 后 ， 语 言 的 设计 者 把 最 简单 的 字符 长 
度 固定 的 数组 这 种 情况 搞 成 了 非法 代码 : 


1 procedure a(fname: array[1..76] of char); 
E ------------------------- ^---Expected identifier 


这 种 语言 定义 的 方式 很 显然 与 许多 程序 员 预 期 的 行为 背道而驰 。 时 至 今日 ， 
我 们 已 经 接 到 无 数 的 技术 支持 电话 请 求 帮 助 。 在 Sun 的 编译 器 小 组 里 ， 每 隔 数 
月 “Pascal 编 译 器 Bug” 的 报告 便 上 升 一 个 数量 级 。Pascal 的 一 致 性 数组 另外 还 存在 
一 个 问题 ， 例 如 ， 一 个 一 致 性 字符 数组 并 不 具有 字符 串 类 型 (因为 它 的 类 型 无 法 
用 任何 数组 类 型 来 表示 ) ， 所 以 即使 它 是 一 个 字符 数组 ， 它 也 不 能 作为 字符 串 参 
数 传递 ! 一 致 性 数组 形 参 会 给 Pascal 程 序 员 带 来 更 多 的 烦恼 ， 也 许 只 有 交互 式 IO 
比 它 更 麻烦 。 更 糟糕 的 是 ， 有 些 人 正在 讨论 要 不 要 在 C 语 言 中 增加 一 致 性 数组 。 


10.5.3 方法 3 


我 们 可 以 采取 的 第 三 种 方法 是 放弃 二 维 数 组 ， 把 它 的 结构 改 为 一 个 lliffe 向 
量 。 也 就 是 说 ， 创 建 一 个 一 维 数组 ， 数 组 中 的 元 素 是 指向 其 他 东西 的 指针 。 回 想 
一 下 main() 函 数 的 两 个 参数 ， 我 们 已 经 习惯 了 看 到 char * argv[]; 的 形式 ， 有 时 也 能 
看 到 char ** argv; 这 样 的 形式 ， 它 能 提醒 我 们 怎样 分 析 这 个 声明 。 可 以 简单 地 传递 
一 个 指 同 数组 参数 的 第 一 个 元 素 的 指针 ， 如 下 所 示 〈 用 于 二 维 数 组 ) : 


my_function(char **my_array); 


注意 : 只 有 在 把 二 维 数组 改 为 一 个 指向 向 量 的 指针 数组 的 前 提 下 才 可 以 这 
样 做 ! 


lliffe 回 量 这 种 数据 结构 的 美感 在 于 : 它 允 许 任意 的 字符 串 指针 数组 传递 给 函 
数 ， 但 必须 是 指针 数组 ， 而 且 必 须 是 指向 字符 串 的 指针 数组 。 这 是 因为 字符 串 和 
指针 都 有 一 个 显 式 的 越界 值 〈 分 别 为 NUL 和 NULL ) ， 可 以 作为 结束 标记 。 至 于 
其 他 类 型 ， 并 没有 一 种 类 似 的 通用 且 可 靠 的 值 ， 所 以 并 没有 一 种 内 置 的 方法 知道 
何 时 到 达 数 组 式 一 维 的 结束 位 置 。 即 使 是 指向 字符 串 的 指针 数组 ， 通 常 也 需要 一 
个 计数 参数 argc 来 记录 字符 串 的 数量 。 


10.5.4 方法 4 


我 们 可 以 采取 的 最 后 一 种 方法 是 放弃 多 维 数组 的 形式 ， 提 供 自己 的 下 标 方 
式 。 当 Groucho Marx 评 论 “ 如 果 你 把 小 红 春 者 成 苹果 桨 那样 ， 它 们 答 起 来 会 比 大 黄 
更 像 李 子 ” 时 ， 他 脑子 里 想 的 肯定 就 是 这 种 错综复杂 的 迁 回 方法 。 


char_array[row size * i + j] = ... 


这 很 容易 误 入 上 收 途 ， 而 且 会 让 你 困惑 ， 如 果 可 以 手工 做 这 些 事情 ， 那 么 为 什 
么 还 需要 使 用 编译 器 呢 ? 


总 之 ， 如 果 多 维 数组 各 维 的 长 度 都 是 一 个 完全 相同 的 固定 值 ， 那 么 把 它 传递 
给 一 个 函数 这 无 问题 。 如 果 情 况 更 普通 一 些 ， 也 更 常见 一 些 ， 就 是 作为 函数 的 参 
数 的 数组 的 长 度 是 任意 的 ， 我 们 用 下 面 的 方法 进行 进一步 的 分 析 。 


一 维 数 组 一 一 没有 问题 ， 但 需要 包括 一 个 计数 值 或 者 是 一 个 能 够 标识 越界 位 
置 的 结束 符 。 被 调用 的 函数 无 法 检测 数组 参数 的 边界 。 正 因为 如 此 ，gets0 函 
数 存在 安全 漏洞 ， 从 而 导致 了 Internet 蠕 虫 的 产生 。 

二 维 数 组 一 一 不 能 直接 传递 给 函数 ， 但 可 以 把 矩阵 改写 为 一 个 一 维 的 Tliffe 朵 
量 ， 并 使 用 相同 的 下 标 表 示 方 法 。 对 于 字符 串 来 说 ， 这 样 做 是 可 以 的 。 对 于 
其 他 类 型 ， 需 要 增加 一 个 记 数 值 或 者 能 够 标识 越界 位 置 的 结束 符 。 同 样 ， 它 
依赖 于 调用 函数 和 被 调用 函数 之 间 的 约定 。 

三 维 或 更 多 维 的 数组 一 一 都 无 法 使 用 ， 必 须 把 它 分 解 为 几 个 维 数 更 少 的 数 
组 。 


不 文 持 多 维 数组 作为 参数 传递 是 C 语 言 存在 的 一 个 内 在 限制 ， 这 使 得 用 C 语 言 
编写 茶 些 特定 类 型 的 程序 时 非常 困难 《“ 如 数值 分 析 算 法 ) 。 


10.6 使 用 指针 从 函数 返回 一 个 数组 


前 一 节 分 析 了 怎样 把 数组 作为 参数 传递 给 函数 。 本 市 换个 方向 讨论 数据 的 转 
换 : 从 函数 返回 一 个 数组 。 


严格 地 说 ， 无 法 直接 从 函数 返回 一 个 数组 。 但是， 可 以 让 函数 返回 一 个 指 疝 
任何 数据 结构 的 指针 ， 当 然 也 可 以 是 一 个 指向 数组 的 指针 。 记 住 ， 声 明 必 须 在 使 
用 之 前 。 一 个 声明 的 例子 是 : 


int (*paf())[26]; 


这 里 ，paf 是 一 个 函数 ， 它 返回 一 个 指向 包含 20 个 int 元 素 的 数组 的 指针 。 它 的 
定义 可 能 如 下 : 


int (*paf())[28] { 
int (*pear)[20]; /* 声明 一 个 指向 包含 26 个 int 元 素 的 数组 的 指针 */ 
pear = calloc(20, sizeof(int)); 
if(!pear) longjmp(error, 1); 
return pear; 


} 
你 用 下 面 这 样 的 方法 来 调用 函数 : 
int (*xresult)[26] ; /* 声明 一 个 指向 包含 26 个 int 元 素 的 数组 的 指针 */ 
result = pa /* 调用 函数 */ 
(*result)[3] = 12; /* 访问 结果 数组 */ 


或 者 玩 个 花样 ， 定 义 一 个 结构 : 


struct a tag { 


int array[26]; 


} x, y; 
struct a tag my function() { ... return y } 


用 下 面 的 方法 来 使 用 : 


X = y) 
x = my_function(); 


如 果 要 访问 数组 中 的 元 素 ， 可 以 用 下 面 的 方法 : 


x.array[i] = 38; 


干 万 要 注意 ， 不 能 从 函数 中 返回 一 个 指向 函数 的 局 部 变量 的 指针 〈 详 见 第 2 


小 启发 
为 什么 NULL 指 针 会 导致 printf 函 数 般 省? 


有 一 个 经 常 被 问 到 的 问题 是 :“ 为 什么 同 printf0) 函 数 传递 一 个 NULL 指 针 会 导 
致 程序 月 尝 ? ”人 们 似乎 觉得 可 以 像 下 面 这 样 编写 代码 : 


char *p = NULL; 
和 


printf("%s", p); 


并 认为 它 不 会 朋 溃 。 客 户 有 时 会 抱怨 :“ 它 在 我 的 HPHIBMVPC 上 就 不 会 裔 
演 。” 他 们 希望 当 printf0) 传 入 一 个 NULL 指 针 时 ， 它 会 打印 出 空 字 符 串 。 


问题 在 于 C 标 准 规定 %s 说 明 符 的 参数 必须 是 一 个 指向 字符 数组 的 指针 。 由 于 
NULL 并 不 是 一 个 这 样 的 指针 〔 它 是 一 个 指针 ， 但 它 并 不 指向 一 个 字符 数组 〉， 
所 以 这 个 调用 将 陷入 “未 定义 行为 ”。 


由 于 程序 员 在 编码 时 出 现 了 一 些 错误 ， 问 题 是 “你 是 希望 尽早 还 是 尽 晚 发 现 错 
误 ? ”如果 你 坚持 printf 应 该 能 够 处 理 一 个 NULL 指 针 〈 将 它 作 为 合法 的 参数 ) ， 那 


么 ， 对 于 其 他 在 libc 中 的 库 函 数 ， 是 否 也 应 该 这 样 做 呢 ? 如 果 传 递 给 strcmp(O) 函 数 
的 一 个 参数 是 一 个 NULL 指 针 ， 那 么 strcmp0 函 数 又 该 怎样 处 理 它 呢 ? 你 希望 让 
printf 尽 可 能 地 撕 摩 程序 员 的 意图 〈 很 可 能 使 程序 在 以 后 陷入 更 大 的 麻烦 ) ， 还 是 
想 让 程序 尽 可 能 早 地 发 现 错误 ? 


Sun libc 选 择 了 第 二 种 方法 。 其 他 一 些 libc 厂 商 则 选择 了 第 一 种 方法 ， 也 许 它 
对 程序 员 更 为 友好 ， 但 在 安全 性 上 却 打 了 折扣 。 这 也 涉及 一 致 性 问题 ， 你 希望 对 
libc 中 的 其 他 函数 也 进行 扩展 ， 人 允许 NULL 指 针 参 数 吗 ? 


10.7 使 用 指针 创建 和 使 用 动态 数组 


当 预 先 并 不 知道 数据 的 长 度 时 ， 可 以 使 用 动态 数组 。 绝 大 多 数 具 有 数组 的 编 
程 语言 都 能 够 在 运行 时 设置 数组 的 长 度 。 它 们 允许 程序 员 计 算 需 要 处 理 的 元 素 的 
数目 ， 然 后 创建 一 个 刚好 能 容纳 这 些 元 素 的 数组 。 历 史 比 较 悠 和 久 的 语言 ， 如 
Algol-60、PLT 和 Algol-68 等 ， 也 有 具备 这 个 功能 ;比较 新 的 语言 ， 如 Ada、 
Fortran90 和 GNU C〈 由 GNU C 编 译 器 实现 的 语言 版 本 ) 等 ， 也 人 允许 声明 长 度 可 在 
运行 时 设置 的 数组 。 


然而 ， 在 ANSI C 中 ， 数 组 是 静态 的 一 一 数组 的 长 度 在 编译 时 便 已 确定 不 变 。 
在 这 个 领域 ，C 语 言 的 支持 很 弱 ， 你 甚至 不 能 使 用 像 下 面 这 样 的 常量 形式 : 


const int limit = 10608; 
char plum[1imit]; 


八 八 八 


error :integral constant expression expected (错误 ， 期 待 整 型 常量 表达 式 ) 


我 们 不 想 问 “为 什么 一 个 const int 不 能 被 当 作 一 个 整 型 常量 表达 式 ” 这 样 令 人 尴 
诉 的 问题 。 在 C++ 中 ， 这 样 的 语句 是 合法 的 。 


在 ANSI C 中 引入 动态 数组 应 该 是 比较 容易 的 ， 因 为 这 个 特性 所 需要 的 “前 问 
艺术 ”(prior art) 功能 已 经 存在 。 所 需要 做 的 就 是 把 标准 第 5.5.4 节 中 下 面 这 一 行 


direct-declarator [ constant-expression opt ] 


改 为 


direct-declarator [ expression opt ] 


如 果 去 除 这 个 人 为 限制 ， 数 组 的 定义 事实 上 会 更 简单 一 些 。 如 果真 能 这 样 做 
的 话 ，C 语 言 的 功能 将 会 得 到 增强 ， 而 且 仍然 能 与 K&R C 保 持 兼 容 。 由 于 委员 会 
强烈 希望 与 C 语 言 最 初 的 简单 设计 保持 一 致 ， 所 以 这 个 方案 仍然 没有 被 采纳 。 泣 


运 的 是 ， 除 此 之 外 仍然 有 办 法 实现 动态 数组 的 功能 〈 代 价 就 是 我 们 必须 亲自 做 一 
些 指针 操作 ) 。 


小 局 发 

从 程序 的 信息 中 得 到 启发 

使 用 strings 实 用 程序 从 二 进 制 文件 内 部 查看 程序 可 能 产生 的 错误 信息 是 很 有 
帮助 的 。 如 果 strings 已 经 被 国际 化 并 且 可 以 把 信息 输出 到 另 一 个 文件 中 ， 你 甚至 


不 需要 查看 这 个 二 进 制 文件 。 如 果 用 strings 检 查 yacc 程 序 ， 会 发 现 它 的 错误 信息 
在 最 近 的 两 个 版 本 中 有 着 显著 的 不 同 。 特 别 是 ， 错 误 信 息 : 


% strings yacc 
too many states (大多 的 状态 ) 


变 成 了 


% strings yacc 
cannot expand table of states (无 法 扩展 状态 表 ) 


原因 是 yacc 程 序 被 升级 ， 它 的 内 部 表 (internal table) 现在 是 动态 分 配 的 ， 可 
以 根据 需要 进行 扩张 。 


软件 信条 


有 意义 的 错误 信息 


在 编译 器 中 有 时 也 会 出 现 有 趣 的 字符 串 。 据 说 ， 下 列 字 符 串 都 是 从 Apollo C 
编译 器 中 找到 的 : 


60 cpp says it’s hopeless but trying anyway (cpp 表 示 希 望 渺 巷 ,但 它 尽 量 试 试 ) 
14 parse error: I just don’t get it (解析 错误 ， 我 无 法 理解 它 ) 
77 you learned to prgram in Fortran,，didn’t you? 〔( 你 是 从 Fortran 学 习 编 程 的 ， 是 不 是 


633 linker attempting to "duct tape" this "gerbil" of a program 


链接 器 试图 “ 牢 牢 绑 住 ?程序 中 的 “ 活 蹦 乱 跳 的 沙 鼠 ”) 


也 许 这 就 是 链接 器 又 称 作 捆绑 器 的 原因 .…… 


这 些 《〈 可 能 是 伪造 的 ) 信息 对 于 程序 员 而 言 可 以 当 作 是 玩笑 。 但 是 ， 我 们 只 
能 适度 地 使 用 幽默 。 有 一 位 程序 员 不 是 Sun 公 司 的 ) 在 网 络 驱 动 程序 中 编写 了 
一 条 信息 ， 内 容 是 “Bad bcb: we’re in big trouble now.”(Bad bcb: 我 们 现在 遇 到 了 
大 麻烦 ) 。 这 条 信息 位 于 一 条 switch 语 句 的 default 子 句 中 ， 根 据 协议 手册 ， 这 条 
switch 语 句 中 的 default 子 句 是 绝 不 会 被 执行 的 。 


自然 ， 事 实 上 这 条 语句 被 执行 了 。 而 且 ， 直 到 系统 投入 生产 使 用 后 才 出 现 这 
条 语句 被 执行 的 情况 。 接 收 到 这 条 信息 的 顾客 站 点 有 十 几 个 大 型 机 昼夜 不 停 地 运 
行 ， 由 操作 员 负 责 管理 。 所 有 的 控制 人 台 信 息 都 被 打印 出 来 ， 操 作 员 将 根据 信息 记 
录 日 志文 件 ， 确 认 信息 已 被 阅读 。 


当 这 条 信息 出 现时 ， 操 作 员 叫 来 了 他 的 上 司 。 当 时 大 约 是 早上 6 点 ， 上 司 赶 


紧 打 电话 给 三 商 的 程序 员 。 而 这 位 程序 员 所 在 的 地 方 是 凌晨 3 点 左右 《太平洋 时 
间 ) ， 那 位 上 司 向 程序 员 解 释 道 ， 由 于 他 们 的 机 器 必须 连续 不 停 地 运行 ， 所 以 操 
作 员 必须 非常 认真 地 对 等 所 有 的 信息 ， 他 希望 三 商 能 说 明 一 下 这 条 信息 表示 什么 


局 \ 4PCAo 


注意 ， 这 条 信息 并 无 襄 污 之 意 ， 它 告诉 程序 员 哪 里 出 了 问题 。 但 问题 在 于 它 
不 必要 地 回顾 客 发 出 了 和 警告。 经 过 快速 修改 之 后 ， 这 个 程序 马上 推出 了 新 版 本 。 
这 条 信 | 县 变 成 了 : 


»buffer control block 35 checksum failed. 〈 绥 冲 区 控制 块 35 检 验 和 失败 ) ” 
”packet rejected - inform support - not urgent. 〈 分 组 被 拒绝 -信息 支持 -并 非 紧急 ) ” 


对 于 此 类 的 罕见 信息 ， 用 两 行文 字 来 表示 是 可 行 的 。 


信息 应 该 具有 启发 性 ， 而 非 烛 动 性 ， 并 且 要 避免 使 用 诸如 带 有 丈 污 性、 口语 
化 、 幽 上 默 或 者 夸张 的 非 专业 用 语 。 尤 其 是 ， 如 果 你 规 规矩 矩 地 这 样 做 ， 就 可 以 避 
免 在 凑 晨 3 点 钟 被 叫 醒 。 


现在 我 们 讨论 在 C 语 言 中 如 何 实现 动态 数组 。 请 系 紧 安全 带 ， 这 次 的 学 习 之 
旅 可 是 非常 地 征 航 ! 它 的 基本 思路 就 是 使 用 malloc0 库 函数 《内 存 分 配 〉 来 得 到 一 
个 指向 一 大 块 内 存 的 指针 。 然 后 ， 像 引用 数组 一 样 引用 这 块 内 存 ， 其 机 理 就 是 一 
个 数组 下 标 访 问 可 以 改写 为 一 个 指针 加 上 偏 移 量 。 


#include <std1lib.h> 
#include <stdio.h> 


int size; 

char *dynamic; 

char input[18]; 

printf("Please enter size of array: "); 
size = atoi(fgets(input, 7, stdin)); 
dynamic = (char *)malloc(size); 


dn = ”a’; 
dynamic[size-1] = 


动态 数组 对 于 避免 预定 义 的 限制 也 是 非常 有 用 的 。 这 方面 的 经 典 例子 是 在 编 
译 嚣 中。 我 们 不 想 把 编译 器 符号 表 的 记录 数量 限制 在 一 个 固定 的 数目 上 ， 但 也 不 
想 一 开始 就 建立 一 个 非 第 巨大 的 固定 长 度 的 表 ， 这 样 会 导致 其 他 操作 的 内 存 空间 
不 够 。 到 目前 为 止 ， 这 些 内 容 还 是 比较 容易 理解 的 。 


小 启发 


报告 Bug 有 助 于 提高 产品 的 质量 


几 年 前 ， 我 们 在 其 中 一 个 Pascal 编 译 器 上 增加 了 一 些 代 码 。 这 样 ， 它 就 会 根 
据 需要 对 记录 头 文 件 名 的 内 部 表 进 行 增 长 。 一 开始 ， 这 个 表 具 有 12 个 空 的 slot。 当 
源 文件 嵌 套 的 头 文件 的 层 数 超过 12 时 ， 表 格 会 自动 进行 增长 以 处 理 这 种 情况 。 


所 有 真正 意义 上 的 软件 或 多 或 少 都 会 存在 一 些 Bug。 在 这 个 例子 里 ， 一 位 程 
序 员 编 码 有 误 。 结 果 ， 妆 编译 器 试图 增长 表格 时 ， 程 序 就 进行 信息 转 储 〈 并 中 
止 ) 。 这 个 结果 非常 糟糕 ， 无 论 用 户 输入 什么 内 容 ， 编 译 器 都 不 应 该 中 止 。 


结果 ， 在 欧洲 的 一 个 大 客户 那里 ， 这 个 错误 造成 了 一 个 特别 的 问题 。 这 位 客 
户 有 一 套 大 型 的 Pascal 软 件 ， 用 于 发 电 控制 ， 他 们 想 把 它 移植 到 Sun 的 工作 站 中 。 
这 套 软 件 的 大 多 数 程序 所 典 套 的 头 文件 层 数 都 超过 了 12， 所 以 他 们 经 常 发 现 编译 
器 进行 信息 转 储 。 此 时 ， 客 户 犯 了 两 个 错误 ; 一 是 他 们 没有 报告 这 个 错误 ， 二 是 
他 们 没有 对 这 个 问题 进行 深入 调查 。 


对 报告 的 问题 进行 修正 是 优先 级 最 高 的 任务 ， 但 我 们 只 能 修正 所 知道 的 问题 
《 即 回 我 们 报告 的 问题 )》。 在 Pascal 中 ， 头 文件 共 套 层 数 很 深 的 情况 极为 罕见 


《 头 文 件 机 制 甚 至 不 是 标准 Pascal 的 一 部 分 ) 。 无 论 是 我 们 的 测试 程序 还 是 其 他 
客户 都 不 曾 报告 这 个 问题 。 结 果 ， 这 家 电力 公司 发 现在 编译 器 的 新 版 本 中 这 个 问 
题 依 然 存 在 。 


但 此 时 这 个 问题 却 给 这 家 公司 造成 了 很 大 危机 ， 数 百 万 美元 投资 面临 打 水 漂 
的 危险 。 多 位 公司 副 总 〈 我 们 公司 的 和 他 们 公司 的 ) 中 断 了 高 尔 夫 球 活动 ， 匆 匆 
聚 在 一 起 商讨 对 策 。 结 果 ， 对 方 公司 派 址 了 一 位 资深 工程 师 飞 到 美国 与 我 会 面 ， 
要 求 修正 这 个 Bug。 我 是 编译 器 部 门 第 一 个 见 到 这 个 Bug 的 重要 人 物 ! 我 们 立即 修 
正 了 这 个 Bug， 让 这 位 工程 师 带 着 打 好 补丁 的 编译 器 回 家 。 但 我 同时 对 一 个 事实 
深 感 震 尺 ， 如 果 他 们 稍微 花 点 时 间 调 查 一 下 这 个 问题 的 起 因 ， 只 要 稍 做 修改 就 可 
能 很 轻易 地 解决 这 个 Bug。 这 个 故事 的 教训 是 两 方面 的 。 


1 向 客户 支持 中 心 报告 你 所 发 现 的 所 有 的 产品 缺陷 。 我 们 只 能 修正 我 们 知 
道 的 Bug， 而 且 它 可 能 在 其 他 地 方 发 生 ( 我 们 的 男 一 个 挫折 来 源 是 有 些 政府 机 构 
报告 了 问题 ， 但 出 于 “安全 理由 ”拒绝 向 我 们 提供 产生 问题 的 代码 ， 即 使 他 们 对 代 
码 进行 了 一 番 安 全 方面 的 处 理 ) 。 


2. 禅宗 思想 和 软件 维护 的 艺术 都 建议 ， 你 应 该 花 点 时 间 调 查 任 何 所 发 现 的 
Bug， 也 许 这 些 Bug 可 以 很 容易 就 解决 掉 。 


我 们 真正 需要 实现 的 是 使 表 具 有 根据 需要 自动 增长 的 能 力 ， 这 样 它 的 唯一 限 
制 就 是 内 存 的 总 容量 。 如 果 不 是 直接 声明 一 个 数组 ， 而 是 在 运行 时 在 堆 上 分 配 数 
组 的 内 存 ， 就 可 以 实现 这 个 目标 。 有 一 个 库 函 数 realloc0， 它 能 够 对 一 个 现在 的 内 
存 块 大 小 进行 重新 分 配 (通常 是 使 之 扩大 ) ， 同 时 不 会 丢失 原先 内 存 块 的 内 容 。 
当 需 要 在 动态 表 中 增长 一 个 项 目 时 ， 可 以 进行 如 下 操作 。 


1. 对 表 进 行 检查 ， 看 看 它 是 否 真 的 已 满 。 


2. 如 果 确 实 已 满 ， 使 用 reallocO 函 数 扩展 表 的 长 度 ， 并 进行 检查 ， 确 保 
realloc() 操 作成 功 进行 。 


3. 在 表 中 增加 所 需要 的 项 目 。 


用 C 代 码 表示 ， 大 致 如 下 : 


int current element = 0@; 
int total element = 128; 
char *dynamic = malloc(total element); 


void add element(char c){ 

if(current element == total element - 1){ 
total element *= 2; 
dynamic = (char *)realloc(dynamic, total element); 
if(dynamic == NULL) error("Coundn’t expand the table"); 

} 

current_ element++; 

dynamic[current element] = c; 


} 


在 实践 中 ， 不 要 把 realloc() 函 数 的 返回 值 直 接 赋 给 字符 指针 。 如 果 realloc0) 函 
数 失败 ， 它 会 使 该 指针 的 值 变 成 NULL， 这 样 就 无 法 对 现 有 的 表 进 行 访 问 。 


编程 挑战 
动态 增长 你 的 数组 


编写 一 个 main() 程 序 ， 使 用 上 面 提 到 的 那个 函数 。 检 查 一 下 原先 的 数组 ， 并 
填充 足够 的 元 素 ， 使 之 调用 realloc() 函 数 进行 扩张 。 


附加 分 : 


在 add_elementO 函 数 中 增加 几 条 语句 ， 使 它 可 以 负责 动态 内 存 区 域 的 初始 内 
存 分 配 。 这 样 做 有 什么 优点 和 缺点 ? 该 怎样 使 用 setjmpQO/longjmp0) 来 优雅 地 处 理 
表 增 长 过 程 中 出 现 的 错误 ? 


这 种 模拟 动态 数组 的 技巧 在 SunOS 5.0 版 本 中 得 到 了 广泛 的 使 用 。 所 有 重要 的 
固定 长 度 的 表 《 人 们 在 实际 使 用 中 受到 限制 ) 都 进行 了 修改 ， 使 之 能 够 自动 增 
长 。 这 个 技巧 在 其 他 许多 系统 软件 中 也 得 到 了 使 用 ， 如 编译 器 和 调试 器 。 但 这 个 
技巧 并 不 是 在 所 有 地 方 都 应 该 使 用 ， 理 由 如 下 。 


。 当 一 个 大 型 表格 突然 需要 增长 时 ， 系 统 的 运行 速度 可 能 会 慢 下 来 ， 而 且 这 在 
什么 时 候 发 生 是 无 法 预测 的 。 内 存 分 配 成 倍增 长 是 最 关键 的 原因 。 

。 重 分 配 操作 很 可 能 把 原先 的 整个 内 存 块 移 到 一 个 不 同 的 位 置 ， 这 样 表 格 中 元 
素 的 地 址 便 不 再 有 效 。 为 避免 麻烦 ， 应 该 使 用 下 标 而 不 是 元 素 的 地 址 。 

。 所 有 的 增加 和 删除 操作 都 必须 通过 函数 来 进行 ， 这 样 才能 维持 表 的 完整 性 。 
只 是 这 样 一 来 ， 修 改 表 所 涉及 的 内 容 就 比 仅 仅 使 用 下 标 要 多 得 多 。 

。 如 有 果 表 的 项 目 数量 减少 ， 可 能 应 该 缩小 表 并 释放 多 余 的 内 存 。 这 样 内 存 收 缩 
的 操作 对 程序 的 运行 速度 有 很 大 的 影响 。 每 次 搜索 表格 时 ， 编 译 器 最 好 能 够 
知道 任 一 时 刻 表 的 大 小 。 

。 当 某 个 线程 对 表 进 行内 存 重 新 分 配 时 ， 你 可 能 想 锁 住 表 ， 保 护 表 的 访问 ， 防 
止 其 他 线程 读 取 表 。 对 于 多 线程 代码 ， 这 种 锁 总 是 必要 的 。 


数据 结构 动态 增长 的 另 一 种 方法 是 使 用 链表 ， 但 链表 不 能 进行 随机 访问 。 你 
只 能 线性 地 访问 链表 (除非 把 频繁 访问 的 链表 元 素 的 地 址 保存 在 缓冲 区 内 〉 ， 而 
数组 则 允许 随机 访问 ， 这 可 能 在 性 能 上 造成 很 大 的 差别 。 


10.8 ”轻松 一 下 一 一 程序 检验 的 限制 
工程 师 所 存在 的 问题 是 他 们 采取 欺骗 手段 以 获得 结果 。 
数学 家 所 存在 的 问题 是 他 们 研究 一 些 玩具 性 的 问题 以 获得 结果 。 


程序 检验 员 所 存在 的 问题 是 他 们 在 玩具 性 的 问题 上 采取 欺骗 手段 以 获得 结 
平 。 


一 一 匿名 人 士 


夏 日 的 某 一 天 ，Usenet 网 络 的 C 语 言论 坛 上 出 现 了 一 篇 言辞 尖锐 的 帖子 ， 使 读 
者 颇 感 惊奇 。 发 帖 者 (为 保护 隐私 ， 姓 名 从 略 》 要 求 在 程序 中 普 电 采用 正式 的 程 
序 检验 ， 因 为 "如果 不 这 样 做 ， 程 序 只 是 一 种 黑客 的 作品 罢了 ”。 他 的 论据 包括 在 
一 个 3 行 的 C 程 序 中 加 入 45 行 的 检验 ， 以 维护 程序 的 正确 性 。 简 短 起 见 ， 我 对 这 个 
帖子 做 了 压缩 。 下 面 是 它 的 内 容 。 


表 10-3 ”程序 检验 的 帖子 


来 源 : 一 位 程序 检验 的 支持 者 


日 期 : 1991 年 5 月 15 日 ， 星 期 五 ， 美 国 太平 洋 时 间 12: 43: 52 
主题 : Re: 不 使 用 临时 变量 交换 两 个 值 


有 人 问 我 下 面 的 程序 段 〈 用 于 交换 两 个 值 ) 能 和 否 达到 目的 : 
*a ^= *b; /* 执行 3 个 连续 的 异 或 操作 */ 
*b 人 ^= *a; 
*a 人 ^= *b; 
我 的 回答 如 下 : 
在 满足 下 面 两 种 标准 的 前 提 下 执行 下 面 这 个 序列 :这儿 个 操作 都 是 原子 操作 ;， 它 在 执行 时 不 
会 发 生硬 件 失败 、 内 存 空 间 不 够 或 数学 运算 失败 等 问题 。 
ta 人 D:D a 人 0D; 
之 后 ，*a 和 *b 的 值 将 是 f3(a) 和 f3(b)。 其 中 ， 
fF3°—>]ambda x (x ==7a f2(a Nf2(b) Tf2(X)) 
F2° ambda Xe (XxX == D> fID FMCaDe LX) 
=lambda xX (xX =a 0 ta 人 "be *x) 
或 用 一 一 和 可 读 性 好 的 形式 表示 : 
fF3(CaD) = f2(a) fr2(b) fF3(xX) = f2(x) else 
f2(b) = f1i(b) ^ f1(a), f2(x) = f1(X) else 
Fla) = a be fl(x tx else 
(前 提 是 *a 和 *b 已 经 定义 ， 也 就 是 a != NULL, b!= NULL) 。 


这 样 一 来 ， 这 段 代 码 只 会 产生 两 种 结果 ( 源 于 beta reduction ) ， 即 
如 果 a 和 b 相 同 : f3(a) = f3(b)=0 
如 果 a 和 b 不 同 : f3(a) = b, f3(b) = a。 
相关 的 可 靠 性 验证 和 调试 
数学 检验 和 验证 是 唯一 可 靠 的 技巧 。 和 否则 的 话 ， 程 序 就 是 工程 黑客 的 作品 嗣 了。 与 人 们 通常 


想象 的 相反 ， 所 有 的 C 程 序 都 容易 根据 这 种 方法 通过 数学 分 析 来 进行 驾驭 


吃惊 的 读者 对 于 几 分 钟 之 后 的 该 作者 的 跟 帖 更 感 惊讶 .…… 


表 10-4 ”对 程序 检验 帖 的 跟 帖 


来 源 : 一 位 程序 检验 的 支持 者 
日 期 : 1991 年 5 月 15 日 ， 星 期 五 ， 美 国 太 平 洋 时 间 13: 07: 34 
主题 : Re: 不 使 用 临时 变量 交换 两 个 值 
也 就 是 : 
如 果 a 和 b 相 同 : f3(a) = fb) = 0 
如 果 a 和 b 不 同 : f3(a) =b, f3(b) = a。 
实际 上 应 该 是 : 
f3(a) = *b, Hf3(b) = *a... 


不 仅 这 个 检验 存在 两 个 错误 ， 而 且 他 所 “检验 ”的 C 程 序 事实 上 也 不 正确 ! 大 
家 都 知道 在 C 语 言 中 不 可 能 不 使 用 临时 变量 来 交换 两 个 值 〈 在 一 般 情况 下 ) 。 在 
此 例 中 ， 如 果 a 和 b 指 回 重 县 的 对 象 ， 这 个 算法 就 会 失败 。 另 外 ， 如 果 其 中 一 个 变 
量 存储 于 寄存 器 中 或 者 是 一 个 位 段 ， 这 个 算法 也 不 可 行 ， 因 为 无 法 取得 寄存 器 或 
者 位 段 的 地 址 。 如 果 *a 和 *b 是 长 度 不 同 的 类 型 ， 或 者 它们 其 中 之 一 指向 一 个 数 
组 ， 该 算法 同样 不 行 。 


可 能 还 有 人 并 不 信服 ， | 
是 一 个 典型 的 单 检验 条 件 ， 取 自 一 个 实际 的 程序 ， 它 被 认为 是 正确 的 。 这 个 条 件 
取 自 一 个 傅 里 时 变换 《一 种 聪明 的 信和 号 波形 分 析 ) 的 检验 中 ， 它 出 现 于 1973 年 的 
一 篇 报道 On Programming 中 ， 作 者 是 纽约 大 学 Courant 学 院 的 Jacob Schwartz。 


如 果 发 现 还 是 有 人 认为 在 程序 中 提供 检验 是 可 行 的 ， 就 用 下 面 这 个 问题 考 考 
他 。 我 们 对 这 个 检验 只 进行 了 一 个 改动 ， 请 找到 这 处 改动 。 根 据 那里 出 现 的 信息 
找到 这 个 修正 是 可 能 的 。 答 案 位 于 本 章 的 末尾 。 


一 个 取 自 快速 传 里 叶 变 换 程序 的 单 检验 条 件 
程序 员 健康 警告 千 万 不 要 过 于 投入 ! 


我 列 出 这 个 恐怖 的 程序 检验 的 目的 是 让 你 确信 程序 检验 是 不 可 行 的 ! 


你 愿 不 愿意 整 天 注视 这 几 页 的 代码 ? 很 有 可 能 在 仅仅 引入 这 些 条 件 时 就 引入 
错误 。 连 完整 的 检验 本 号 写 起 来 都 不 能 确保 是 正确 的 ， 更 何况 要 让 它 检验 程序 的 
完整 性 、 一 致 性 和 正确 性 。 


有 些 人 建议 ， 如 果 有 上 自动 程序 校对 器 ， 就 可 以 操纵 这 个 复杂 的 概念 。 但 怎么 
能 够 确信 一 个 自动 程序 校对 器 就 不 存在 Bug? 难道 让 校对 器 对 其 自身 进行 校对 ? 
有 一 个 问题 可 以 很 清楚 地 说 明 校 对 器 是 不 够 充分 的 。 如 果 你 问 一 个 可 能 的 说 谎 
者 :“ 你 会 说 方 吗 ? ”即使 他 回答 说 “不 ”， 你 难道 能 够 相信 吗 ? 


更 多 阅读 材料 


要 想 知道 更 多 有 关 程 序 检 验 的 问题 ， 有 一 篇 文章 非常 值得 一 读 。 它 的 题目 
是 Social Processed and Proofs of Theorems and Programs， 刊 登 于 Communications 
of the ACM， 第 22 卷 ， 第 5 写 ，1979 年 5 月 ， 作 者 是 Richard de Millo、Richard 
Lipton 和 Alan Perlis。 这 提供 了 为 什么 现在 程序 检验 尚 不 可 行 的 背景 〈 很 有 可 能 将 
来 也 不 可 行 ) 。 程 序 检验 要 证 明 的 主要 观点 就 是 当前 程序 校对 的 处 理 并 不 是 一 种 
实用 的 建议 。 现 在 我 们 只 能 沉 洒 于 “工程 黑客 "了 。 


解决 方案 


程序 检验 修改 的 答案 


好 ! 我 承认 ， 我 并 没有 在 检验 中 修改 任何 内 容 。 但 仔细 阅读 了 这 段 复 杂文 本 
的 人 有 没有 发 现 这 一 点 呢 ? 程序 检验 是 不 可 行 的 ， 因 为 绝 大 多 数 程序 员 发 现 它 们 
太 难 阅读 了 。 


[1] 这 里 我 们 略微 进行 了 简化 一 一 指针 实际 上 是 声明 为 指向 单个 字符 的 。 但 是 如 
果 定 义 为 指向 字符 的 指针 ， 就 存在 一 种 可 能 性 ， 就 是 其 他 字符 可 能 紧邻 着 它 存 
储 ， 隐 式 地 形成 了 一 个 字符 串 。 像 下 面 这 样 的 声明 : 

char (* rhubarb[4])[7]; 

才 是 真正 声明 了 一 个 指向 字符 串 的 指针 数组 。 在 实际 代码 中 从 未 曾 使 用 过 这 种 形 
式 ， 因 为 它 不 必要 地 限制 了 所 指向 的 数组 的 长 度 〈 只 能 恰好 为 7) 。 


[2] 论 括号 是 Pascal 的 注释 形式 。 一 一 译 者 注 


第 11 章 ”你 懂得 C， 所 以 C++ 不 在 话 下 


C++ 之 于 C， 就 像 Algol-68 员 之 于 Algol。 
—— David L. Jones 


如 果 你 觉得 C++ 还 不 够 复杂 ， 那 你 知道 protected abstract virtual base pure 
virtual private destructor 是 什么 意思 吗 ? 你 上 次 用 到 它 又 是 什么 时 候 呢 ? 


一 一 TJom Cargi C++ Journal,1990 年 秋 


11.1 初 识 OOP 


你 懂得 C， 所 以 C++ 不 在 话 下 ， 是 吗 ? 也 许 如 此 。 大 部 分 C++ 图 书 都 有 三 四 百 
页 厚 ， 排 版 密密麻麻 。 你 如 果 沉 酒 于 它 的 细节 之 中 ， 很 容易 迷失 方 辐 ， 无 法 从 中 
寻找 到 它 的 真正 要 旨 。 另 一 方面 ， 从 实用 的 角度 讲 ，C++ 是 ANSI C 的 一 个 超 集 ， 
它 基本 上 兼容 ANSI C。 不 过 C 语 言 的 有 些 特性 在 C++ 中 并 不 支持 。 但 是 ， 要 想 从 
C++ 中 获 益 ， 或 甚至 完全 理解 它 ， 必 须 理解 一 些 基 础 概念 。 这 就 是 人 们 在 谈论 使 
用 C++ 编程 时 “objectr-oriented paradigm”( 面 向 对 象 编程 模型 ) 和 “转换 思维 ”的 意 
思 。 我 去 掉 了 C++ 中 的 一 些 神 秘 之 处 ， 尽 量 用 平实 的 语言 来 描述 C++， 把 它 与 你 
所 熟悉 的 C 语 言 特性 联系 起 来 ， 帮 助 你 尽快 入 门 。 


这 有 点 类 似 于 窗口 接口 编程 模型 。 有 时 我 们 需要 从 窗口 系统 的 角度 学 习 改写 
自己 的 程序 ， 此 时 的 控制 逻辑 就 要 转变 成 主 窗口 循环 处 理 。 面 向 对 象 编程 
(OOP) 也 差不多 ,但 它 是 从 改写 数据 类 型 的 角度 对 程序 进行 改写 。 


OOP 并 不 是 一 个 新 鲜 想 法 ，Simula-67 是 这 个 概念 的 先驱 ， 迄 今 〈 本 书写 作 
时 ) 已 超过 25 年 了 。 面 向 对 象 编程 很 自然 地 把 对 象 的 使 用 作为 程序 设计 的 中 心 主 
题 。 软 件 对 象 的 定义 有 很 多 种 ， 其 中 绝 大 多 数 定 义 都 同意 面向 对 象 的 关键 就 是 把 
一 些 数据 和 对 这 些 数据 进行 操作 的 代码 组 合 在 一 起 ， 并 用 某 种 时 竖 手 法 将 它们 做 
成 一 个 单元 。 许 多 编程 语言 把 这 种 类 型 的 单元 称 为 class (类 ) 。 关 于 面向 对 象 编 
程 的 廉价 定义 也 有 很 多 ， 通 常 只 有 在 你 理解 了 OOP 是 什么 以 后 才能 对 这 些 定义 品 
头 论 足 。 其 中 一 种 定义 如 下 : 


面向 对 象 编程 的 特点 是 继承 和 动态 绑 定 。C++ 通 过 类 的 派生 文 持 继承 ， 通 过 
虚拟 函数 文 持 动态 绑 定 。 虚 拟 函 数 提 供 了 一 种 封装 类 体系 实现 细节 的 方法 。 


嗯 ， 看 明白 了 吗 ? 我 将 带领 大 家 进行 一 次 C++ 的 轻松 之 旅 ， 只 讲述 那些 需要 
高 度 重 视 的 内 容 。 我 们 将 省 掉 很 多 不 太 重 要 的 细节 ， 这 样 ， 理 解 C++ 语言 框架 的 


任务 便 大 大 减轻 。 我 们 的 方法 是 领会 一 些 OOP 的 关键 概念 ， 并 总 结 C++ 的 相关 特 
性 是 如 何 支 持 它 们 的 。 这 里 提 到 的 概念 是 按照 轴 辑 顺序 依次 出 现 的 ， 后 面 出 现 的 
概念 一 般 都 建立 在 前 面 出 现 的 概念 的 基础 上 。 有 些 编程 实例 有 意 与 日 常生 活 行为 
相关 联 ， 如 挤 橙汁 。 当 然 挤 橙汁 一 般 并 不 是 通过 软件 方法 来 实现 的 。 这 里 ， 我 们 
将 调用 函数 来 进行 这 个 操作 ， 把 焦点 集中 于 抽象 概念 而 不 是 底层 实现 细节 中 。 首 
先 ， 让 我 们 总 结 一 些 术 语 ， 并 使 用 在 C 语 言 中 已 经 熟悉 的 概念 来 描述 它们 〈 见 表 
11-1) 。 


表 11-1 面向 对 象 编程 的 关键 概念 


术语 定义 


它 是 一 个 去 除 对 象 中 不 重要 的 细节 的 过 程 ， 只 有 那些 描述 了 对 象 的 本 质 特 
征 的 关键 点 才 被 保留 。 抽 象 是 一 种 设计 活动 ， 其 他 的 概念 都 是 提供 抽象 的 
OOP 特 性 


抽象 


(abstraction) 


类 是 一 种 用 户 定义 类 型 ， 就 好 像 是 int 这 样 的 内 置 类 型 一 样 。 内 置 类 型 已 经 
类 (class) 有 了 一 套 针 对 它 的 完善 操作 (如 算术 运算 等 ) ， 类 机 制 也 必须 允许 程序 员 
规定 他 所 定义 的 类 能 够 进行 的 操作 。 类 里 面 的 任何 东西 被 称 为 类 的 成 员 


某 个 类 的 一 个 特定 变量 ， 就 像 j 可 能 是 int 类 型 的 一 个 变量 一 样 。 对 象 也 可 以 
被 称 作 类 的 实例 (instance) 


对 象 〈object) 


把 类 型 、 数 据 和 函数 组 合 在 一 起 ， 组 成 一 个 类 。 在 C 语 言 中 ， 头 文件 就 是 
| 一 个 非常 脆弱 的 封装 实例 。 它 之 所 以 是 一 个 微不足道 的 封装 例子 ， 是 因为 
Cencapsulation ) Vo 

它 的 组 合 形式 是 纯 词法 意义 上 的 ， 编 译 器 并 不 知道 头 文件 是 一 个 语义 单位 


这 是 一 个 很 大 的 概念 简单 的 基 类 中 接收 数据 结构 和 函 
继承 数 。 派 生 类 获得 基 类 的 数据 和 操作 ， 并 可 以 根据 需要 对 它们 进行 改写 ， 也 

Cinheritance ) 可 以 在 派生 类 中 增加 新 的 数据 和 函数 成 员 。 在 C 语 言 里 不 存在 继承 的 概 
念 ， 没 有 任何 内 容 可 以 模拟 这 个 特性 


| 


1985 年 以 前 ，C++ 的 名 字 是 “C with Classes”， 但 现在 人 们 已 经 在 其 中 加 入 了 
非常 多 的 特性 。 从 当时 的 角度 看 ，“C with Classes” 是 C 语 言 的 一 个 相当 合理 的 扩 
展 ， 很 容易 解释 、 实 现 和 教学 。 随 即 ， 人 们 对 这 门 语言 投入 了 极 大 的 热情 ， 至 今 

曾 衰 减 。 有 许多 特性 被 加 入 到 C++ 中 《〈 有 厨房 洗 水 模 之 称 ) 。 为 了 制止 这 种 趋 
势 ， 兽 有 人 建议 C++“ 在 增加 特性 方面 应 该 保守 ?， 也 就 是 在 C++ 中 增加 新 特性 应 
该 服从 等 比 增长 规则 。 你 想 增 加 多 重 继承 吗 ?” 可 以 ! 不 过 腊 间 和 模板 就 只 能 割爱 
了 1! 


现在 的 C++ 是 一 个 相当 庞大 的 语言 。 具 体 地 说 ， 一 个 C 编 译 融 的 前 端 大 约 有 
40000 行 代码 左右 ， 而 一 个 C++ 编译 器 的 前 端的 代码 可 能 是 它 的 两 倍 ， 甚 至 更 多 。 


11.2 ”抽象 一 一 取 事 物 的 本 质 特性 
面向 对 象 编程 从 面向 对 象 设计 开始 ， 而 面向 对 象 设计 从 抽象 开始 。 


什么 是 “对 象 ”? 请 使 用 我 们 新 发 现 的 技巧 “抽象 ”， 考 虑 一 下 现实 世界 事物 的 
相似 之 处 ， 如 一 辆 小 汽车 和 一 个 软件 ， 它 们 的 共同 特性 列 于 表 11-2 中 。 


表 11-2 ”抽象 实例 


汽车 实例 对 象 特征 软件 实例 ， 排 序 程序 

“Car” 整个 事物 具有 一 个 名 字 | “sort” 

输入 : 燃料 和 汽油 输入 : 一 个 未 排序 的 文件 
定义 良好 的 输入 和 输出 

输出 ， 交 通 运输 ”| 输出 ,一 个 已 排序 的 文件 


由 更 小 的 自 包含 的 对 象 
发 动机 、 伟 感 吕 、 厅 等 。 | 模 抉 、 头 文件 、 函 数 、 数 据 结 构 
它 的 实现 应 该 允许 几 个 用 户 同时 排 
世界 上 存在 很 多 汽车 ， 有 许多 
es “| 可 有 很 多 的 实例 对 象 | 序 ， 例 如 不 需要 依赖 一 个 全 局 的 临时 
~IHHYpD 


工作 空间 


更 小 的 自 包含 的 对 象 无 
相互 作用 ， 除 非 它 是 通 
过 定义 良好 的 接口 进行 


燃料 泵 并 不 依赖 并 影响 挡车 板 
清洗 器 


用 于 读 取 记 录 的 程序 应 该 与 关键 的 比 
较 程 序 独立 
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计时 器 的 计时 变化 并 不 是 驾车 用 户 应 该 并 不 需要 知道 或 进一步 乔 
计时 器 的 计时 变化 并 不 是 驾 人 户 应 该 并 个 需要 知道 或 进 “此 利用 
者 的 任务 ， 所 以 驾驶 员 不 能 直 人 程序 所 使 用 的 特定 的 排序 算法 (如 快 
接 控 制 计时 器 对 其 进行 修改 速 排序 、 堆 排序 、Shell 排 序 等 ) 


mp 


人 


J 


l 


bem 


可 以 更 换 一 个 更 好 的 发 动机 ，| 可 以 在 不 修改 用 户 接口 | 实现 者 应 该 能 够 在 不 影响 用 户 使 用 
而 无 须 更 改 轰 驶 员 的 操作 方法 | 的 情况 下 修改 实现 前 提 下 蔡 换 一 种 更 好 的 排序 算法 


i ,,. 
软件 信条 


关键 概念 : 抽象 


抽象 的 概念 就 是 观察 一 群 * 事 物 ”〈 如 汽车 、 发 票 或 正在 执行 的 计算 机 程 
序 ) ， 并 认识 到 它们 具有 一 些 共同 的 主题 。 你 可 以 忽略 不 重要 的 区 别 ， 只 记录 能 
表现 事物 特征 的 关键 数据 项 (如 许可 证 号 码 、 预 定数 量 或 地 址 空间 边界 等 ) 。 当 
你 这 样 做 的 时 候 ， 就 是 在 进行 “抽象 ”” 所 存储 的 数据 类 型 就 是 “抽象 数据 类 型 ”。 
抽象 听 上 去 像 是 一 个 艰深 的 数学 概念 ， 但 不 要 被 它 糊弄 一 一 它 只 不 过 是 对 事物 的 
简化 而 已 。 


注意 ， 在 软件 的 属性 里 ， 有 许多 以 “应 该 ”的 形式 出 现 。OOP 语 言 如 C++ 提供 
了 一 些 特 性 ， 把 上 面 的 这 些 “ 愿 望 " 变 成 了 “现实 ?。 在 软件 中 ， 抽 象 是 非常 有 用 
的 ， 因 为 它 允许 程序 员 实 现下 列 目标 。 


。 隐藏 不 相关 的 细节 ， 把 注意 力 集中 在 本 质 特征 上 。 

。 癌 外 部 世界 提供 一 个 “ 黑 盒 ”接口 。 接 口 确定 了 施加 在 对 象 之 上 的 有 效 操作 的 
集合 ， 但 它 并 不 提示 对 象 在 内 部 是 怎样 实现 它们 的 。 

。 把 一 个 复杂 的 系统 分 解 成 几 个 相互 独立 的 组 成 部 分 。 这 可 以 做 到 分 工 明确 ， 
避免 组 件 之 间 不 符合 规则 的 相互 作用 。 

。 重用 和 共享 代码 。 


C 语 言 通过 人 允许 用 户 定义 新 的 类 型 (struct、enum) 来 支持 抽象 。 用 户 定义 类 


型 几乎 和 预定 义 类 型 (int、char 等 ) 一 样 方便 ， 使 用 形式 也 几乎 一 样 。 我 们 说 “ 几 
乎 一 样 方便 ?是 因为 C 语 言 并 不 允许 在 用 户 定义 类 型 中 重新 定义 *、<<、[]、+ 等 预 
定义 操作 符 。C++ 则 消除 了 这 个 障碍 。C++ 同 时 提供 自动 和 受 控制 的 初始 化 、 数 
据 在 生命 期 结束 后 自动 清除 以 及 隐 式 类 型 转换 。 这 些 特性 有 些 是 C 语 言 所 不 文 持 
的 ， 有 些 在 C 语 言 里 不 是 很 方便 。 


抽象 建立 了 一 种 抽象 数据 类 型 ，C++ 使 用 类 〈class) 这 个 特性 来 实现 它 。 它 
提供 了 一 种 自 上 而 下 的 观察 数据 类 型 属性 的 方法 来 看 待 封装 : 把 用 户 定义 类 型 中 
的 各 种 数据 和 方法 组 合 在 一 起 。 它 同时 也 提供 了 一 种 自 底 向 上 的 观点 来 看 符 封 
装 : 把 各 种 数据 和 方法 组 合 在 一 起 实现 一 种 用 户 定 义 类 型 。 


11.3” 封 沪 一 一 把 相关 的 类 型 、 数 据 和 函数 组 合 在 一 起 


当 把 抽象 数据 类 型 和 它们 的 操作 捆绑 在 一 起 的 时 候 ， 就 是 在 进行 “封装 *。 非 
OOP 语 言 没 有 完备 的 机 制 来 实现 封装 。 我 们 没有 办 法 告诉 C 编 译 器 “这 3 个 函数 只 
对 这 个 特定 的 结构 类 型 才 有 效 ”， 也 没有 办 法 防止 程序 定义 一 个 新 的 函数 ， 以 未 经 
检查 的 和 不 一 致 的 方式 访问 这 个 结构 。 


软件 信条 


关键 概念 一 类 把 代码 和 相关 的 数据 封装 《捆绑 ) 在 一 起 


在 程序 设计 演化 的 最 初 阶段 ， 汇 编程 序 只 能 在 位 和 字 上 进行 操作 。 随 着 高 级 
语言 的 出 现 ， 程 序 员 可 以 很 容易 地 访问 各 种 日 益 增 长 的 硬件 操作 数 : float、 
double、long、char 等 。 有 些 高 级 语言 使 用 了 强 类 型 ， 确 保 只 有 在 某 种 类 型 的 变量 
上 才能 有 效 地 进行 某 种 类 型 的 操作 。 这 是 类 的 启蒙 形式 ， 因 为 它 把 数据 项 和 可 能 
施加 在 它们 上 面 的 操作 固定 在 一 起 。 这 些 操 作 通 常 限 制 在 每 条 单独 的 硬件 指令 
上 ， 如 “ 浮 点 数 乘 法 ”。 


随 着 程序 设计 语言 的 进一步 矿 展 ， 它 们 允许 程序 员 将 各 种 数据 类 型 组 合 在 一 
起 形成 用 户 定义 的 记录 《在 C 语 言 中 是 结构 )。 但 没有 办 法 对 函数 进行 限制 ， 使 
它们 不 能 随心 所 欲 地 操作 数据 以 及 对 用 户 定 义 类 型 的 私有 字段 进行 访问 。 如 果 一 
个 结构 是 完全 可 见 的 ， 它 的 任何 部 分 都 可 能 以 任何 方式 被 修改 。 人 们 无 法 把 函数 
固定 到 数据 类 型 上 ， 使 它们 清晰 地 成 为 一 体 。 


CS 未 来 
在 一 起 ， 它 就 像 是 一 一 一 > | “。 
> : 

一 


组 织 代 但 


程序 设计 艺术 的 当前 状态 是 面向 对 象 语言 ， 它 们 通过 把 用 户 定义 的 数据 结构 
和 用 户 定 义 的 能 够 在 这 些 数据 结构 上 进行 操作 的 函数 捆绑 在 一 起 ， 实 现 了 数据 的 
完整 性 。 别 的 函数 无 法 访问 用 户 定义 类 型 的 内 部 数据 。 这 样 ， 强 类 型 就 从 预定 义 
类 型 扩展 到 用 户 定义 类 型 。 


11.4 展示 一 些 类 一 一 用 户 定 义 类 型 享有 和 预定 义 类 型 一 样 的 
权限 


C++ 的 类 机 制 实现 了 OOP 的 封装 要 求 ， 类 就 是 封装 的 软件 实现 。 类 也 是 一 种 
类 型 ， 就 像 char、int、double 和 struct rec * 都 是 类 型 一 样 。 因 此 ， 你 必须 声明 该 类 
的 变量 以 便 进 行 有 用 的 工作 。 类 和 类 型 一 样 ， 可 以 对 它 进 行 很 多 操作 ， 如 取得 它 
的 大 小 或 声明 它 的 变量 等 。 


对 象 和 变量 一 样 ， 可 以 对 它 进行 很 多 操作 ， 如 取得 它 的 地 址 、 把 它 作 为 参数 
传递 、 把 它 作 为 函数 的 返回 值 、 使 它 成 为 常量 值 等 。 一 个 对 象 〈 一 个 类 的 变量 ) 
可 以 像 声 明 其 他 任何 变量 一 样 被 声明 : 


Vegetable carrot ; 


这 里 ，Vegetable 是 一 个 类 的 名 字 〔 稍 后 详 述 如 何 创 建 一 个 类 本 身 ) ， 而 carrot 
是 该 类 的 一 个 对 象 。 类 的 名 字 以 大 写字 母 开 头 是 一 个 很 好 的 习惯 。 


C++ 类 人 允许 用 户 定义 类 型 


。 把 用 户 定义 类 型 和 施加 在 它们 上 面 的 操作 组 合 在 一 起 ; 
。 具有 和 内 置 类 型 一 样 的 特权 和 外 观 ; 
。 可 以 用 更 基本 的 类 型 创建 更 复杂 的 类 型 。 


BE ,,. 
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类 


关键 概念 


类 就 是 用 户 定义 类 型 加 上 所 有 对 该 类 型 进行 的 操作 。 


类 经 常 被 实现 的 形式 是 : 一 个 包含 多 个 数据 的 结构 ， 加 上 对 这 些 数据 进行 操 
作 的 函数 的 指针 。 编 译 器 施行 强 类 型 一 一 确保 这 些 函 数 只 会 被 该 类 的 对 象 调用 ， 
而 且 该 类 的 对 象 无 法 调用 除 它 们 之 外 的 其 他 函数 。 


C++ 的 类 实现 了 上 述 所 有 目的 。 它 可 以 看 作 是 一 个 结构 ， 而 且 它 确实 可 以 方 
便 地 用 一 个 结构 来 实现 。 类 通常 的 形式 是 : 


class 类 名 { 


由 
运 


访问 控制 : 


各 
运 


访问 控制 : 


11.5 访问 控制 


访问 控制 是 一 个 关键 字 ， 它 说 明了 谁 可 以 访问 接 下 来 声明 的 数据 或 函数 。t 
问 控 制 可 以 是 以 下 3 种 。 


属于 public 的 声明 在 类 的 外 部 可 见 ， 并 可 按 需 要 进行 设置 、 调 用 和 操纵 。 一 般 的 原 
则 是 不 要 把 类 的 数据 设置 为 public， 因 为 让 数据 保持 私有 才 符 合 面向 对 象 编程 的 理 
论 之 一 : 只 有 类 本 身 才能 改变 自己 的 数据 ， 外 部 函数 只 能 调用 类 的 成 员 函 数 ， 这 
就 保证 了 类 的 数据 只 会 以 合乎 规则 的 方式 被 更 新 


瑟 


public 


protected | 属于 protected 的 声明 的 内 容 只 能 由 该 类 本 身 的 函数 和 从 该 类 所 派生 的 类 的 函数 使 用 


属于 private 的 声明 只 能 被 该 类 的 成 员 函 数 使 用 。private 声 明 在 类 外 部 是 可 见 的 (名 
字 是 已 知 的 ) ， 但 却 是 不 能 访问 的 


Private 


另外 还 有 两 个 关键 字 也 会 影响 访问 控制 ， 它 们 是 friend 和 virtual。 这 两 个 关键 
性 次 只 能 用 于 一 条 声明 ， 而 上 述 3 个 关键 字 每 个 后 面 可 以 跟 一 大 串 声明 。 另 外 
点 不 同 的 是 ，friend 和 virtual 这 两 个 关键 字 后 面 不 跟 冒 号 。 


属于 friend 的 函数 不 属于 类 的 成 员 函 数 ， 但 可 以 像 成 员 函 数 一 样 访问 类 的 private 和 
protected 成 员 。friend 可 以 是 一 个 函数 ， 也 可 以 是 一 个 类 


friend 


virtual | 到 现在 为 止 我 还 没有 覆盖 这 一 主题 ， 所 以 这 个 话题 暂时 搁 下 ， 容 后 再 述 


我 加 C++ 标 准 化 组 织 提 交 了 一 个 正式 文档 (文档 写 X3J16/93-0121) ， 建 议 所 
有 5 个 访问 控制 关键 字 都 以 p 开 头 ， 关 键 字 friend 应 该 改名 为 protkg&E〈 这 ee 
进 C++ 的 国际 化 ， 并 表达 一 种 关系 的 不 对 称 性 ，friend 显 然 无 法 做 到 这 一 点 ) 。 关 
键 字 virtual 应 该 更 名 为 placeholder， 而 描述 性 的 术语 pure 跟 访 问 控制 毫 无 关联 所 


以 应 该 更 名 为 empty。 这 样 做 可 以 稍微 提高 这 门 语 言 的 词法 规整 性 。 如 果 委 员 会 
喜欢 这 个 试验 ， 他 们 可 以 把 它 进 一 步 扩 展 到 语言 更 有 意义 的 语法 领域 站。 可 惜 的 
是 ， 委 员 会 对 我 的 建议 并 没有 做 出 反应 .….… 


11.6 声明 


C++ 类 的 声明 就 是 正常 的 C 声 明 ， 内 容 包括 函数 、 类 型 《包括 其 他 类 ) 或 数 
据 ; 类 把 它们 捆 在 一 起 。 类 中 的 每 个 函数 声明 都 需要 一 个 实现 ， 它 既 可 以 在 类 里 
面 实现 ， 也 可 以 在 类 外 部 实现 (这 是 通常 的 做 法 ) 。 这 样 ， 类 的 总 体 情 况 大 致 如 
下 : 


class Fruit { public: peel(); slice(); juice(); 
private: int weight, calories per_ oz; 


}; 
// ”类 的 一 个 实例 
Fruit melon; 


记 住 ，C++ 的 注释 始 于 /， 直 至 行 尾 。 


编程 挑战 


党 试 编译 和 运行 一 个 C++ 程序 
是 时 候 党 试 一 个 C++ 程序 了 。C++ 源 文件 通常 具有 扩展 名 .cpp、.cc 或 .c。 请 创 
建 一 个 这 样 的 文件 ， 输 入 上 一 页 的 代码 ， 并 增加 一 个 "hello, world” 主 程序 。 声 明 
几 个 Fruit 类 的 对 象 。 
在 许多 系统 中 ， 通 常用 下 面 的 命令 调用 C++ 编 译 右 : 
cc fruit.cpp 


和 C 相 比 ， 你 必须 显 式 地 用 C++ 编译 器 来 调用 它 。 编 译 并 运行 a.out 文 件 。 恭 
喜 ! 虽然 很 简单 ， 但 你 确实 成 功 编写 了 一 个 C++ 类 。 


当成 员 函 数 在 类 的 外 部 实现 时 ， 前 面 必须 附加 一 些 特别 的 前 级 。 这 个 前 级 就 
是 :: ， 它 念佛 在 大 声呐 喊 “ 嗨 ! 我 很 重要 ! 我 表示 有 些 东西 属于 一 个 类 ”。 反 之 ， 
看 一 下 正常 的 C 函 数 声 明 : 


返回 值 ”函数 名 参数 列表 ) { /* 实现 */ } 


成 员 函 数 《〈 又 称 为 方法 ) 的 形式 则 是 : 


返回 值 ” 类 名 : :函数 名 参数 列表 ) { /* 实现 */} 


:被 称 为 全 局 范围 分 解 符 。 跟 在 它 前 面 的 标识 符 就 是 进行 查找 的 范围 。 如 果 :: 
前 面 没 有 标识 符 ， 就 表示 查找 范围 为 全 局 范围 。 如 果 peel0 成 员 函 数 的 实现 是 在 类 
的 内 部 ， 那 么 它 的 形式 大 致 如 下 : 


class Fruit { public: void peel() { printf("in peel"); } 
slicel(); 
juice(); 
private: int weight, calories per oz; 


}; 


如 果 它 的 实现 是 在 类 的 外 部 ， 则 形式 大 致 如 下 : 


Class Fruit { public: void peel(); 
slice(); 
juice(); 
private: int weight, calories per_ oz; 


}; 


void Fruit::peel() { printf("in peel"); } 


这 两 种 方法 在 语义 上 是 等 价 的 ， 但 第 二 种 形式 更 为 常见 ， 它 的 好 处 是 可 以 通 
过 使 用 头 文件 ， 使 源 代码 的 组 织 形式 更 为 清晰 。 第 一 种 形式 通常 用 于 非常 简短 的 
函数 ， 它 的 代码 在 编译 时 在 声明 处 自动 展开 ， 这 样 在 运行 时 就 不 必 付 出 函数 调用 
的 代价 。 由 于 它 会 使 编译 后 的 代码 变 长 ， 所 以 只 适用 于 非常 简短 的 函数 。 


村 


编写 成 员 函 数 体 


编程 挑战 


为 Fruit 类 的 slice0 和 juice0 成 员 函 数 编写 图 数 体 。 你 可 以 从 复制 peel 的 函数 体 
开始 做 起 。 


1. 在 现实 的 系统 中 ， 这 些 成 员 函 数 可 能 需要 操纵 机 器 人 的 手臂 来 完成 对 水 
果 的 所 需 操 作 。 但 作为 练习 ， 我 们 简单 地 使 每 个 成 员 函 数 打印 一 条 消息 ， 显 示 它 
们 已 被 调用 。 


2. 给 予 这 些 函 数 适 当 的 参数 和 返回 类 型 。 例 如 ，slice0 函 数 应 该 接受 一 个 整 
型 参数 ， 表 示 需 要 切片 的 数量 。juice() 函 数 应 该 返回 一 个 浮 点 值 ， 表 示 所 获得 的 
果汁 量 〈 以 毫升 计 ) 等 。 当 然 ， 类 定义 中 成 员 函 数 声 明 的 原型 应 当 与 它们 定义 时 
的 形式 相 匹 配 。 


3. 试 试 访问 类 中 private 部 分 的 数据 成 员 ， 首 先 从 成 员 函 数 内 部 访问 它们 ， 然 
后 从 类 的 外 部 访问 它们 ， 看 看 有 什么 结果 。 


11.7 ”如 何 调用 成 员 函 数 


让 我 们 看 一 下 调用 类 的 成 员 函 数 的 有 趣 方法 。 你 必须 在 需要 调用 的 成 员 函 数 
前 面 附 上 类 的 实例 名 (或 称 类 的 变量 ， 也 就 是 对 象 〉。 


Fruit melon, orange, banana; 


main() { 
melon.slice(); 
orange.juice(); 
return 6; 


只 有 这 样 做 ， 这 些 成 员 函 数 才 能 被 调用 ， 并 执行 各 目的 任务 。 这 有 点 像 一 些 
预定 义 的 操作 符 ， 当 我 们 书写 i++ 时 ， 要 表达 的 意思 是 “ 取 i 对 象 ， 对 它 执 行 后 绥 
形式 的 自 增 操作 ”。 调 用 一 个 类 对 象 的 成 员 函 数 相 当 于 面 癌 对 象 编程 语言 所 使 用 
的 “向 对 象 发 送 一 条 信息 ”这 个 术语 。 


每 个 成 员 函 数 都 有 一 个 this 指 针 参 数 ， 它 是 隐 式 赋 给 该 函数 的 ， 它 允许 对 象 在 
成 员 函 数 内 部 引用 对 象 本 身 。 注 意 ， 在 成 员 函 数 内 部 ， 你 应 该 发 现 this 指 针 并 未 显 
式 出 现 ， 这 也 是 语言 本 身 所 设计 的 。 


class Fruit { public: void peel(); 
private: int weight, calories per oz; 


}; 


void Fruit::peel() { printf("this ptr = %p", this); 
this->weight--; 
weight--;} 


Fruit apple; 
printf("address of apple=%x", &apple); 
apple.peel(); 


编程 挑战 
调用 成 员 函 数 
1. 调用 在 前 面 的 例子 中 所 编写 的 slice0 和 juice0 成 员 函 数 。 


2. 试验 一 人 this 指针 是 否 是 隐 式 传递 给 每 个 成 员 函 数 的 第 一 个 参数 。 


构造 函数 和 析 构 函数 


绝 大 多 数 类 至 少 具有 一 个 构造 函数 。 当 创建 类 的 一 个 对 象 时 ， 会 隐 式 地 调用 
构造 冰 数 ， 它 负责 对 象 的 初始 化 。 与 之 相对 应 ， 类 也 存在 一 个 清理 函数 ， 称 为 析 
构 函 数 。 当 对 象 被 销毁 (超出 其 生存 范围 或 进行 delete 操 作 ， 回 收 它 所 使 用 的 堆 内 
存 ) 时 ， 会 自动 调用 析 构 函数 。 析 构 函 数 不 如 构造 函数 常用 ， 它 里 面 的 代码 一 般 
用 于 处 理 一 些 特殊 的 终止 要 求 以 及 垃圾 收集 等 。 有 些 人 把 析 构 函数 当 作 一 种 保险 
方法 来 确保 当 对 象 离开 适当 的 范围 时 ， 同 步 锁 总 能 够 被 释放 。 所 以 他 们 不 仅 清除 
对 象 ， 还 清理 对 象 所 持 有 的 锁 。 构 造 函 数 和 析 构 函数 是 非常 需要 的 ， 因 为 类 外 部 
的 任何 函数 都 不 能 访问 类 的 private 数 据 成 员 。 因 此 ， 你 需要 类 内 部 有 一 个 特权 函 
数 来 创建 一 个 对 象 并 对 其 进行 初始 化 。 


相对 于 C 语 言 而 言 ， 这 是 一 个 小 小 的 飞跃 。 在 C 语 言 中 ， 只 能 使 用 赋值 符号 在 
变量 定义 时 对 它 进行 初始 化 ， 或 干脆 使 它 保持 未 初始 化 状态 。 可 以 在 C++ 的 类 中 
声明 多 个 构造 函数 ， 并 通过 参数 来 区 分 它们 。 构 造 函 数 的 名 字 总 是 和 类 的 名 字 一 
样 : 


Classname :: Classname (arguments) {...}; 


以 Fruit 类 为 例 : 


class Fruit { public: peel(); slice(); juice(); 
Fruit(int i，int j);  // 构 造 函数 
~Fruit(); // 析 构 函 数 
private: int weitht, calories per_ oz ; 


}; 
// 构 造 函 数 体 


Fruit: :Fruit(int i, int j){weight = i; calories per oz = j;} 


// 对 象 声 明 时 由 构造 函数 进行 初始 化 


Fruit melon(4, 5), banana(12, 8); 


构造 函数 是 必要 的 ， 因 为 类 通常 包含 一 些 结构 ， 而 结构 又 可 能 包含 许多 字 
段 。 这 就 需要 复杂 的 初始 化 。 当 创建 类 的 一 个 对 象 时 ， 会 目 动 调用 构造 函数 ， 程 
序 员 永 远 不 应 该 显 式 地 调用 构造 函数 。 至 于 全 局 和 静态 对 象 ， 会 在 程序 开始 时 自 
动 调用 它们 的 构造 函数 ， 而 当 程 序 终止 时 ， 会 自动 调用 它们 的 析 构 函数 。 


构造 函数 和 析 构 函数 违反 了 C 语 言 中 “一 切 工作 自己 负责 ”的 原则 。 它 们 可 以 
使 大 量 的 工作 在 程序 运行 时 被 隐 式 地 完成 ， 减 轻 了 程序 员 的 负担 。 这 也 违背 了 C 
语言 的 哲学 ， 即 语言 中 的 任何 部 分 都 不 应 该 通过 隐藏 的 运行 时 程序 来 实现 。 


编程 挑战 
做 一 些 清 除 工 作 
为 Fruit 类 的 析 构 函数 编写 函数 体 ， 里 面包 含 一 条 printfO 语 句 ， 并 在 一 个 内 层 
的 域 中 声明 一 个 Fruit 类 的 对 象 。 需 要 在 程序 的 涉 部 添加 ##include<stdio.h> 语 句 。 然 


后 ， 重 新 编译 和 运行 a.out 文 件 ， 看 看 当 对 象 离 开 了 它 的 生命 域 时 是 否 调用 了 析 构 
函数 。 


11.8 ”继承 一 一 复 用 已 经 定义 的 操作 


当 一 个 类 治 用 或 定制 它 的 唯一 基 类 的 数据 结构 和 成 员 函 数 时 ， 它 就 使 用 了 单 
继承 。 这 就 建立 了 一 个 类 体系 ， 类 似 于 一 种 科学 分 类 法 。 每 一 层 都 是 对 上 一 层 的 
细 化 。 类 型 继承 是 OOP 的 精华 之 一 ， 这 个 概念 在 C 语 言 中 确实 不 存在 。 你 要 做 好 
思想 准备 ， 迎 接 这 个 “概念 上 的 飞跃 ”。 


RE ,,. 
软件 信条 


关键 概念 : 继承 


从 一 个 类 派生 另外 一 个 类 ， 使 前 者 所 有 的 特征 在 后 者 中 自动 可 用 。 它 可 以 声 
明 一 些 类 型 ， 这 些 类 型 可 以 共享 部 分 或 全 部 以 前 所 声明 的 类 型 。 它 也 可 以 从 多 个 


基 类 型 中 共享 一 些 特征 。 


继承 通常 在 概念 上 提供 越 来 越 多 的 细 化 。 一 般 从 较为 简单 的 基 类 《如 交通 工 
有 具 ) 派生 出 更 为 明确 的 派生 类 《如 载 客 小 汽车 、 救 火车 或 运 货 车 等 ) 。 它 既 可 裁 
剪 ， 也 可 以 增加 可 用 的 操作 。shape 类 可 能 是 C++ 文献 中 用 来 说 明 继 承 这 个 特性 的 
流行 例子 。 基 类 是 较为 抽象 的 shape《〈 形 状 ) ， 从 它 可 以 派生 出 许多 更 为 确定 的 
circle〈 圆 ) 、square 《正方 形 ) 和 pentagon 〈 五 边 形 ) 类 。 我 觉得 如 果 我 们 一 开 
台 就 考虑 一 个 “类 继承 ”的 现实 世界 的 例子 ， 动 物 王国 的 林 奈 分 类 法 《〈 如 图 11-1 所 
示 ) 会 更 合理 一 些 。 另 一 个 类 似 的 例子 是 C 语 言 中 的 类 型 ， 它 们 显示 了 继承 与 C 语 
言 中 的 类 型 模型 是 如 何 相关 的 。 


动物 土 国 中 的 种 类 


/人 代 、 TS 
哺乳 动物 纲 两 栖 动物 岗 。…… 纽 合 类 型 标量 类 型 


> 
> 


灵长目 喘 些 目 数值 类 型 枚 举 ”指针 
~ Pe 
人 科 整数 类 型 实数 类 型 
人 
知人 种 long int char a 


图 11-1 继承 体系 的 两 个 现实 世界 的 例子 


动物 王国 中 的 分 类 法 具有 如 下 特点 。 


次 索 动 物 门 包括 所 有 具有 次 索 (简单 地 说 ， 就 是 将 椎 中 ) 的 动物 ， 也 只 有 具 
有 消 索 的 动物 才 属于 次 索 动物 门 。 在 动物 王国 中 共有 32 个 门 。 

所 有 的 哺乳 动物 具有 一 根 疹 椎 。 因 为 它们 派生 于 将 索 动 物 门 ， 所 以 继承 了 这 
个 特性 。 哺 乳 动物 有 它们 独 有 的 特征 ， 即 它们 用 乳汁 乳 育 后 代 ， 它 们 的 下 颌 
只 有 一 根 骨 头 ， 它 们 具有 毛发 ， 它 们 的 内 耳 具 有 一 定 的 骨 结 构 ， 它 们 的 牙齿 
分 为 两 代 《〈 如 乳牙 和 恒 牙 ) 等 。 

灵长目 动物 继承 了 哺乳 动物 的 所 有 特征 (包括 哺乳 动物 从 消 索 动物 继承 而 来 
的 兰 椎 》 ， 它 们 也 有 自己 独 有 的 特性 ， 即 长 在 前 面 的 眼睛 ， 有 一 个 巨大 的 脑 
壳 ， 有 一 种 特殊 模样 的 门牙 。 

人 科 继 承 了 灵长目 和 它们 的 更 远 祖先 的 所 有 特性 。 它 们 自身 也 有 一 些 独 有 的 
特征 ， 包 括 骨 架 上 的 一 些 改变 以 适合 两 脚 直 立行 走 。 智 人 《现代 人 的 学 名 ) 
种 是 人 科 唯 一 现存 的 种 类 ， 其 他 属于 人 科 的 一 些 种 类 均 已 灭绝 。 


对 C 语 言 的 类 型 体系 稍 作 抽 象 ， 可 进行 类 似 分 析 ， 如 下 所 示 。 


C 语 言 中 的 所 有 类 型 要 么 是 组 合 类 型 (composite type， 如 数组 、 结 构 等 ， 它 
们 由 相同 的 更 小 的 元 素 组 成 ) ， 要 么 是 标量 类 型 (scaler type) 。 标 量 类 型 具 
有 一 个 特性 ， 即 它 的 每 个 值 都 是 原子 值 〈 并 非 由 其 他 类 型 所 组 成 的 )。 
数值 类 型 继承 了 标量 类 型 的 所 有 特性 ， 它 们 男 外 增加 了 一 个 特性 ， 就 是 它们 
可 以 记录 算术 量 。 

整数 类 型 继承 了 数值 类 型 的 所 有 特性 ， 此 外 它们 还 拥有 自己 的 独 有 特性 ， 束 
是 它们 都 是 整数 (没有 小 数 部 分 ) 。 


char 也 属于 整数 类 型 ， 它 的 取 值 范围 较 小 〈-128 一 127) 。 


尽管 我 们 可 以 像 上 面 一 样 从 理论 上 把 继承 应 用 到 所 熟悉 的 C 语 言 类 型 中 ， 但 
是 ， 这 个 继承 模型 对 于 C 程 序 员 来 说 并 没有 实用 价值 。C 语 言 并 不 允许 程序 员 创 建 
一 等 公民 与 内 置 类 型 同一 级 别 ) 的 新 类 型 ， 继 承 了 其 他 数据 类 型 的 属性 的 数据 
类 型 为 数 极 少 。 所 以 ， 程 序 员 无 法 在 现实 的 程序 中 使 用 这 个 类 型 体系 。OOP 的 一 
个 重要 部 分 就 是 推 类 出 你 的 应 用 程序 中 抽象 数据 类 型 的 体系 结构 。C++ 所 创造 的 
且 C 语 言 无 法 通过 正当 途径 轻易 实现 的 主要 新 奇 玩意 儿 就 是 继承 。 继 承 允 许 程序 
员 使 类 型 体系 结构 显 式 化 ， 并 利用 它们 之 间 的 关系 来 控制 代码 。 


让 我 们 实现 一 个 Apple 苹果) 类 ， 它 具有 Fruit 水果) 类 的 所 有 特征 ， 并 拥 
有 两 个 自身 独 有 的 特征 。 下 面 是 两 个 在 苹果 上 可 以 进行 但 在 其 他 类 型 的 水 果 上 不 
太 适 合 的 操作 。 


。 制 作 苹 果 串 。 你 无 法 制作 梨 串 ， 因 为 课 比 苹果 更 币 密 ， 水 份 也 更 多 。 制 作 苹 
果 串 可 以 通过 成 员 函 数 pob_for0 来 实现 。 

。 制 作 苹 果 蜜 馈 ( 英 国人 所 说 的 “ 太 妃 糖 苹果 ”) 。 人 们 并 不 在 葡 欧 上 浇 馈 糖 ， 
即使 在 加 利 福 尼 亚 州 人 们 也 不 这 样 干 。 制 作 苹 果 蜜 馈 可 以 通过 成 员 函 数 
make_candy_apple() 来 实现 。 


所 以 ,我们 让 苹果 类 继承 水 果 类 的 所 有 操作 ， 并 增加 两 个 自己 特有 的 成 员 函 
数 。 不 要 为 应 该 怎样 实现 这 些 成 员 函 数 而 劳 神 。 显 然 ， 它 们 与 寻常 的 计算 模型 相 


去 其 远 。 记 住 ， 我 们 关心 的 是 新 概念 ， 不 要 被 那些 独特 的 算法 迷失 方 癌 。 


区 性 ,，,. 
软件 信条 


C++ 如 何 进行 继承 


继承 在 两 个 类 之 间 《〈 而 不 是 两 个 函数 之 间 ) 进行。 


基 类 的 例子 如 下 : 


class Fruit 


public: 
peel(); 
slice(); 
juice(); 
private: 
int weight, calories per_ oz; 


}; 


派生 类 的 例子 如 下 : 


class Apple : public Fruit 
{ 
public: 
void make_candy_apple(float weight); 
void bob for(int tub id，int number_of_attempts ) ; 


}; 


对 象 声 明 的 例子 如 下 : 


Apple teachers; 


上 面 的 例子 表示 派生 类 Apple 是 基 类 Fruit 的 特殊 类 型 。Apple 类 声明 第 一 行 的 


public 关 键 字 确定 了 派生 类 以 外 的 对 象 对 基 类 的 访问 控制 。 这 个 话题 要 是 在 这 里 
完全 展开 就 太 大 了 ， 所 以 略 去 不 讲 。 


继承 的 语法 初 看 上 去 令 人 感到 不 太 和 舒服。 派生 类 的 名 字 后 面 跟 一 个 冒号 ， 然 
后 是 基 类 的 名 字 。 这 种 形式 非常 简洁 ， 它 并 不 提供 太 多 提示 ， 告 诉 我 们 哪个 是 基 
类 哪个 是 派生 类 ， 而 且 它 并 不 传递 任何 跟 类 型 说 明 有 关 的 信息 。 它 并 不 是 建立 在 
现 有 的 C 语 言 惯用 法 的 基础 上 ， 所 以 传统 经 验 也 帮 不 了 我 们 。 


不 要 把 在 一 个 类 内 部 舱 套 男 一 个 类 与 继承 混淆 。 髓 套 只 是 把 一 个 类 舱 入 男 一 
类 的 内 部 ， 它 并 不 具有 特殊 的 权限 ， 跟 被 抠 套 的 类 也 没有 什么 特殊 的 关系 。 基 和 套 
通常 用 于 实现 容器 类 《就 是 实现 一 些 数据 结构 的 类 ， 如 链表 、 散 列表 、 队 列 
等 ) 。 现 在 C++ 增加 了 模板 〈template) 这 个 特性 ， 它 也 用 于 实现 容器 类 。 


继承 表示 派生 类 是 基 类 的 一 个 变型 ， 它 们 之 间 如 何 相互 访问 ， 则 是 由 许多 详 
细 的 语义 来 决定 。 与 租 套 类 (一 个 较 小 的 对 象 是 一 个 较 大 对 象 的 许多 组 成 部 分 之 
一 ) 不 同 ， 继 承 表示 一 个 对 象 是 一 个 更 为 普通 的 父 对 象 的 特 型 。 我 们 不 会 认为 哺 
乳 动 物 内 藤 套 了 一 条 狗 ， 而 会 认为 狗 继承 了 哺乳 动物 的 特征 。 请 设身处地 思考 目 
己 所 面 对 的 情形 ， 选 择 合适 的 用 法 。 


11.9 多 重 继 承 一 一 从 两 个 或 更 多 的 基 类 派生 


C 语 言 很 容易 让 你 在 开 枪 时 伤 着 自己 的 脚 ，C++ 使 这 种 情况 很 少 发 生 。 但 
是 ， 一 且 发 生 这 种 情况 ， 它 很 可 能 麦 掉 你 整 条 腿 。 
一 一 Barne Stroustrup 
多 重 继承 允许 把 两 个 类 组 合成 一 个 ， 这 样 结果 类 对 象 的 行为 类 似 于 这 两 个 类 
的 对 象 中 的 任何 一 个 。 它 把 树 形 类 体系 变 成 了 格 形 。 


继续 我 们 的 水 果 比 喻 。 我 们 可 能 有 一 个 称 作 沙 司 的 类 ， 并 注意 到 有 些 水 果 类 
的 对 象 也 能 用 作 沙 司 。 这 给 予 类 型 体系 一 种 多 重 继承 的 特征 ， 表 示 如 下 : 


沙 司 《Sauce ) 水 果 Fruit) 


水 果 沙 司 《FruitSauces) 


可 能 会 出 现 的 对 象 声 明 如 下 : 


Fruitsauce orange，cranberry;  ”// 这 些 实例 既是 沙 司 也 是 水 果 


多 重 继承 比 单 重 继承 要 少见 得 多 ， 对 于 它 是 否 应 该 存在 于 语言 中 也 曾经 是 激 
烈 辩论 的 话题 。 多 重 继承 在 一 些 OOP 语 言 ( 如 SmallTalk〉 中 并 不 存在 ， 但 在 男 一 


、 


些 OOP 语 言 〈《 如 Eiffeal) 中 却 存在 。 我 们 应 该 注意 到 ， 在 现实 中 类 型 体系 更 像 图 
11-3， 而 不 是 图 11-2。 


| 


图 11-2 直接 继承 


H 


| 


pe 
ba 


图 11-3 多重 继承 


多 重 继承 看 2 无 论 在 实现 上 和 使 用 上 都 是 一 个 容易 产生 错误 的 特 
性 。 有 些 人 认为 ， 迄 今 为 止 尚 无 令 人 信服 的 例子 证 明 哪 种 设计 是 必须 采用 多 重 继 
承 的 。 


11.10 重 载 作用 于 不 同类 型 的 同一 操作 具有 相同 的 名 字 


重 载 (overload) 就 是 简单 地 复 用 一 个 现存 的 名 字 ， 但 它 操作 的 是 一 个 不 同 
的 类 型 。 它 可 以 是 函数 的 名 字 ， 也 可 以 是 一 个 操作 符 。 操 作 符 重 载 在 C 语 言 中 已 
经 以 一 种 初步 的 方式 存在 。 事 实 上 ， 所 有 的 语言 都 为 内 置 类 型 进行 了 操作 符 
载 。 


gj ”/* 浮 点 数 加 法 */ 
k /* 整数 加 法 */ 


+ 运算 〈 操 作 ) 在 上 面 两 种 情况 下 是 不 一 样 的 。 第 一 条 语句 将 会 产生 一 条 浮 
点 数 加 法 指令 ， 第 二 条 语句 则 产生 一 条 整数 加 法 指令 。 由 于 所 执行 的 操作 是 同一 
个 数学 概念 ， 所 以 操作 符 的 名 字 也 应 该 是 一 样 的 。 由 于 C++ 允许 创建 新 类 型 ， 程 
序 员 也 可 以 为 新 类 型 重 载 名 字 和 操作 符 。 重 载 允许 程序 员 复 用 函数 名 和 绝 大 多 数 
的 操作 符 ， 如 +、=、*、-、 了 [和 0 等 ， 赋 予 它 们 新 的 含义 ， 以 便 用 于 用 户 定 义 类 
型 。 这 也 是 OOP 设 计 哲 学 中 把 所 有 对 象 作 为 一 个 组 合 整体 的 思想 。 


重 载 〈 按 照 它 的 定义 ) 总 是 在 编译 时 进行 解析 。 编 译 属 查看 操作 数 的 类 型 ， 
并 核查 它 是 否 是 该 操作 符 所 声明 的 类 型 之 一 。 为 了 保持 程序 员 的 心智 健全 ， 应 该 
为 一 个 相似 的 操作 对 操作 符 进 行 重 载 (如 为 两 个 用 户 定 义 类 型 的 加 法 重 载 + 操作 
符 ) 。 和 干 万 不 要 干 这 种 傻 事 ， 即 对 * 操 作 符 进行 重 载 ， 让 它 实 际 上 进行 除法 运 
算 。 


11.11 C++ 如 何 进行 操作 符 重 载 


作为 一 个 例子 ， 让 我 们 重 载 “+” 操 作 符 ， 为 水 果 类 定义 加 法 操作 。 首 先 ， 增 加 
水 果 类 的 加 法 操作 符 原 型 : 


class Fruit { public: void peel(); slice(); juice(); 
int operator+(Fruit &f); // 重 载 + 操作 符 


private: int weight, calories per_ oz; 


}; 


然后 为 重 载 的 操作 符 函 数 提供 一 个 函数 体 : 


int Fruit::operator+(Fruit &f){ 
printf("calling fruit addition\n"); // ”这 样 我 们 就 能 看 到 它 被 调用 


return weight + f.weight; 


和 以 前 一 样 ， 每 个 成 员 函 数 都 传 子 一 个 隐 式 的 this 指 针 ， 人 允许 我 们 引用 操作 符 
的 左 操作 数 。 这 里 ， 加 法 的 右 操作 数 是 参数 f， 它 是 Fruit 类 的 一 个 实例 ， 它 前 面 的 
久 表 示 它 是 通过 传 址 调用 的 。 


这 个 重 载 的 加 法 操作 符 函 数 可 以 像 下 面 这 样 调用 : 


Apple apple; 
Fruit orange; 


int ounces = apple + orange; 


重 载 后 的 操作 符 的 优先 级 和 操作 数 〈 编 译 器 行 话 中 的 arity) 与 原先 的 操作 符 
相同 。 这 样 ， 你 可 以 发 现 ，C++ 表 示 如 果 你 预先 定义 加 法 操作 符 ， 就 可 以 把 苹果 
和 桔子 相 加 。C++ 给 予 “操作 符 错 误 ” 这 个 短语 一 个 全 新 的 诠释 。 重 载 在 C++ 的 IO 


中 也 非常 方便 ， 细 节 在 下 一 节 描 述 。 


11.12 ”C++ 的 输入 /输出 (UO) 


就 像 C 语 言 具有 自己 的 标准 VO 函数 库 一 样 ，C++ 的 特性 之 一 就 是 它 自身 拥有 
一 套 新 的 MO 程序 和 概念 。C++ 有 一 个 iostream.h 头 文件 ， 提 供 了 IO 接口 ， 使 7O 操 
作 更 为 方便 出 ， 也 更 符合 OOP 的 理念 。 


C++ 使 用 << 操 作 符 《〈 输 出 ， 或 称 为 “插入 ”) 和 >> 操 作 符 〈 输 入 ， 或 称 为 “ 提 
取 ”) 来 将 代 C 语 言 中 的 putchar0 和 getchar0 等 函数 。 


<< 和 >> 操 作 符 在 C 语 言 中 也 用 作 左 移 位 和 右 移 位 操作 符 ， 但 它们 被 重 载 用 于 
C++ 的 WO。 编译 器 查看 操作 数 的 类 型 ， 决 定 是 产生 移 位 代码 还 是 VO 代码 。 如 果 
最 左边 的 操作 数 是 一 个 流 (stream) ， 该 操作 符 就 作为 WO 操作 符 。 使 用 操作 符 而 
不 是 函数 来 操纵 1/O 具 有 4 个 优点 。 


可 以 为 任何 类 型 定义 操作 符 。 这 样 就 不 需要 为 每 种 类 型 准备 一 个 单独 的 函数 
或 者 字符 串 格 式 化 限定 符 〈 如 9%d) 。 
与 使 用 函数 相 比 ， 当 输出 多 条 信息 时 ， 使 用 操作 符 操 纵 MO 具 有 概念 上 的 方便 
性 。 就 像 可 以 书写 i+j+k+1] 这 样 的 表达 式 一 样 ， 操 作 符 的 左 结合 性 确保 你 可 
以 合理 地 把 多 个 IO 操作 数 链 在 一 起 。 


cout << "the value is "<< i <<end]; 


它 提 供 一 个 附加 的 层 ， 简 化 了 类 似 scanfO 这 样 的 函数 的 格式 控制 和 使 用 方 
法 。 我 们 应 该 认识 到 scanfO 家 族 确实 应 该 进行 简化 《尽管 它 的 手册 非常 简 
短 ) 。 

对 << 和 >> 操 作 符 进行 重 载 ， 在 一 个 单一 的 操作 中 读 取 和 书写 整个 对 象 不 仅 是 
可 能 的 ， 而 且 是 非常 需要 的 。 上 一 节 己 经 有 过 一 个 这 样 重 载 的 例子 。 


你 仍然 可 以 在 C++ 中 使 用 C 语 言 的 stdio.h 中 的 函数 ， 但 尽早 转向 C++ 的 IO 特性 
是 非常 值得 的 。 


11.13 ”多 态 一 运行 时 绑 定 


多 态 (polymorphism) 源 于 希腊 语 ， 意 思 是 “多 种 形状 ”。 在 C++ 中 ， 它 的 意 
思 是 文 持 相关 的 对 象 具有 不 同 的 成 员 函 数 〈 但 原型 相同 ) ， 并 人 允许 对 象 与 适当 的 
成 员 函 数 进行 运行 时 绑 定 。 we 
多 态 成 员 函 数 具 有 相同 的 名 字 ， 由 运行 时 系统 判断 哪 一 个 最 为 合适 。 当 使 用 继承 
et en aie 
是 派生 类 对 象 。 这 个 判断 并 调用 正确 的 函数 的 过 程 称 为 “后 期 绑 定 ”(late 
binding) 。 在 成 员 函 数 前 面 加 上 virtual 关 键 字 ， 可 以 告诉 编译 器 该 成 员 函 数 是 多 
态 的 〈 也 就 是 虚拟 函数 ) 。 


在 寻常 的 编译 时 重 载 中 ， 函 数 的 原型 必须 显著 不 同 ， 这 样 编译 器 才能 通过 碍 
看 参数 的 类 型 判断 需要 调用 哪个 函数 。 但 在 虚拟 函数 中 ， 函 数 的 原型 必须 相同 ， 
由 运行 时 系统 进行 解析 ， 来 判断 调用 哪 一 个 函数 。 多 态 是 我 们 将 讨论 的 C++ 的 最 
后 一 个 焦点 ， 通 过 代码 实例 来 解释 它 会 比 单纯 的 文字 更 容易 理解 。 


BE ,.. 
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关键 概念 : 多 态 


多 态 是 指 一 个 函数 或 操作 符 只 有 一 个 名 字 ， 但 它 可 以 用 于 几 个 不 同 的 派生 类 
型 。 每 个 对 象 都 实现 该 操作 的 一 种 变型 ， 表 现 一 种 最 适合 自身 的 行为 。 它 始 于 履 
蓄 一 个 名 字 一 一 对 同一 个 名 字 进 行 复 用 ， 代 表 不 同 对 象 中 的 相同 概念 。 多 态 非常 
有 用 ， 因 为 它 意味 着 可 以 给 类 似 的 东西 取 相 同 的 名 字 。 运 行 时 系统 在 儿 个 名 字 相 
同 的 函数 中 选择 正确 的 一 个 进行 调用 ， 这 就 是 多 态 。 


让 我 们 从 熟悉 的 水 果 类 开始 。 我 们 为 水 果 类 增加 一 个 成 员 函 数 ， 0 
去 皮 (peel) 。 同 样 ， 我 们 并 不 细 究 水 果 去 上 的 细节 ， 只 是 让 和 它 打印 一 条 信 


#include <stdio.h> 
class Fruit { public: void peel() { "peeling a base class fruit\n"};} 
slice(); 
juice(); 
private: int weight, calories per oz; 


}; 


当 声 明 一 个 水 果 对 象 ， 并 像 下 面 这 样 调用 peel0 成 员 函 数 时 : 


Fruit banana; 
banana.peel(); 
我 们 将 得 到 一 条 信 


peeling a base class fruit 


到 目前 为 止 ， 一 切 正 常 。 现 在 考虑 从 水 果 类 派生 苹果 类 ， 并 实现 苹果 类 目 己 
的 peel0 成 员 函 数 。 不 管 怎样 ， 苹 果 去 皮 的 方式 和 香 熙 去 皮 的 方式 还 是 有 所 不 同 
的 : 你 可 以 用 手 剥 去 香 秦 的 皮 ， 但 必须 借助 小 刀 才 能 前 去 苹果 的 皮 。 我 们 知道 ， 
可 以 让 苹果 类 的 去 皮 成 员 函 数 与 水 果 类 的 去 皮 成 员 函 数 同 名 ， 因 为 C++ 会 用 窗 盖 
的 方法 进行 处 理 : 


class Apple : public Fruit { 
public: 
void peel() { printf("peeling an apple\n");} 
void make_ candy_apple(float weight); 


}; 


让 我 们 声明 一 个 指向 水 果 类 的 指针 ， 并 让 它 指 向 一 个 苹果 对 象 ( 它 继承 于 水 
果 类 ) ， 看 看 当 我 们 试图 去 皮 时 会 发 生 什么 。 


Fruit *p; 
p = new Apple; 


|p->peel(); 


哇 ! 如 果 这 样 做 ， 你 会 获 和 从 
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% cc fruits.cpp 
% a.out 


peeling a base class fruit 


换 名 话说， 为 苹果 类 量 身 定 做 的 peel0 成 员 函 数 并 没有 被 调用 ， 真 正 调用 的 是 
基 类 的 peel0 成 员 函 数 ! 


11.14 解释 
出 现 上 面 这 个 结果 的 原因 是 ， 当 想 用 派生 类 的 成 员 函 数 取代 基 类 的 同名 函数 
时 ，C++ 要 求 你 必须 预先 通知 编译 器 。 通 知 的 方法 就 是 在 可 能 会 被 取代 的 基 类 成 


员 函 数 前 面 加 上 virtual 关 键 字 。 本 章 伊始 ， 在 提 到 virtual 关 键 字 时 ， 曾 说 过 会 在 稍 
背景 知识 才能 理解 这 


后 对 它 进行 详 述 ， 现 在 你 应 该 明日 这 个 道理 了 。 你 需要 许多 
样 的 问题 ， 当 然 到 现在 为 止 ， 这 些 背 景 知 识 已 经 准备 就 绪 。 


小 启发 


缺 省 的 虚拟 函数 不 可 行 
为 什么 成 员 函 数 不 缺 省 地 使 用 virtual? 不 管 怎样 ， 如 果 需 要 调用 基 类 的 成 员 
函数 ， 可 以 使 用 下 面 的 方法 : 


p->Fruit: :peel() 


它 的 原因 和 C 语 言 为 什么 不 缺 省 地 使 用 register 关 键 字 有 异曲同工 之 处 一 一 它 
是 一 种 笨拙 的 优化 措施 。 既 然 并 不 是 每 个 成 员 函 数 调 用 都 需要 这 种 运行 时 的 间接 
形式 ， 为 什么 要 让 每 个 成 员 函 数 都 添加 一 个 额外 负担 呢 ? 应 该 显 式 地 告诉 编译 器 


哪些 成 员 函 数 需要 多 态 。 


从 当前 这 个 上 下 文 的 角度 来 说 ，virtual (虚拟 ) 这 个 词 多 少 显得 有 些 用 词 不 
当 。 在 计算 机 科学 的 其 他 领域 中 ，virtual 的 意思 是 用 户 所 看 到 的 东西 事实 上 并 不 


存在 ， 它 只 是 用 茶 种 方法 文 撑 的 约 觉 喷 了 。 这 里 ， 它 的 意思 是 不 让 用 户 看 到 事实 
上 存在 的 东西 《 基 类 的 成 员 函 数 ) 。 换 用 一 个 更 有 意义 的 关键 字 【〈 虽 然 长 得 不 切 


实际 ) : 


choose_ the appropriate method at runtime for whatever object this _ is 


(在 运行 时 根据 对 象 的 类 型 选择 合适 的 成 员 函 数 ) 


也 可 以 用 一 个 更 简单 的 词 ， 就 是 先前 提 到 过 的 placeholder。 


11.15 C++ 如 何 表 现 多 态 


在 先前 的 例子 中 ， 我 们 在 基 类 的 成 员 函 数 前 增加 virtual 关 键 字 ， 其 他 地 方 无 
须 修改 : 


#include “stdio.h> 
class Fruit 


public: virtual void peel() { "peeling a base class fruit\n"};} 
slicel(); 
juice(); 

private: int weight, calories per_ oz; 


2 


通过 编译 和 执行 ， 结 果 如 下 : 


% cc fruits.cpp 
% a.out 
peeling an apple 


这 个 结果 和 预想 的 完全 一 样 。 到 目前 为 止 ， 这 些 结果 都 可 以 在 编译 时 获得 ， 
但 多 态 是 一 种 运行 时 效果 。 它 是 指 C++ 对 象 在 运行 时 决定 应 该 调用 哪个 函数 来 实 
现 茶 个 特定 操作 的 过 程 。 


运行 时 系统 碍 看 调用 虚拟 函数 的 对 象 ， 并 选择 适合 该 类 型 对 象 的 成 员 函 数 。 
如 果 它 是 一 个 派生 类 对 象 ， 我 们 就 不 希望 它 调用 基 类 版 本 的 成 员 函 数 ， 而 是 希望 
它 调用 派生 类 的 成 员 函 数 。 但 是 当 基 类 被 编译 时 ， 编 译 器 可 能 看 不 到 这 种 情况 。 
因此 ， 这 个 效果 必须 在 运行 时 动态 实现 ， 用 C++ 的 术语 就 是 “虚拟 实现 ”。 


单 继 承 通常 通 过 在 每 个 对 象 内 包含 一 个 vptr 指 针 来 实现 虚拟 函数 。vptr 指 针 指 
回 一 个 叫 作 vtb1 的 函数 指针 向 量 〈 称 为 虚拟 函数 表 ， 也 称 为 V 表 ) 。 每 个 类 都 有 这 
样 一 个 回 量 ， 类 中 的 每 个 虚拟 函数 在 该 向 量 中 都 有 一 条 记录 。 使 用 这 种 方法 ， 该 
类 的 所 有 对 象 可 以 共享 实现 代码 。 虚 拟 函 数 表 的 布局 是 预先 设置 好 的 ， 茶 个 成 员 
函数 的 函数 指针 在 该 类 所 有 子 类 的 虚拟 函数 表 中 的 侦 移 地 址 都 是 一 样 的 。 在 运行 


时 ， 对 虚拟 成 员 函 数 的 调用 是 通过 vptr 指 针 根 据 适当 的 偏 移 量 调用 虚拟 函数 表 中 
合适 的 函数 指针 来 实现 的 ， 它 是 一 种 间接 调用 。 多 重 继 承 的 情况 更 为 复 淋 ， 需 要 
另外 一 层 的 间接 形式 。 如 果 你 摘 不 明白 ， 可 以 对 它 画 一 幅 图 ， 线 的 最 末端 就 是 需 
要 调用 的 成 员 函 数 。 


11.16 ”新奇 玩意 儿 一 一 多 态 


在 多 态 中 ， 你 可 以 发 掘 出 许多 新 奇 的 玩意 ， 但 有 时 候 它 们 又 是 极为 本 质 的 东 
西 。 它 可 使 派生 类 的 成 员 函 数 优先 于 基 类 的 同名 函数 获得 调用 ， 但 如 果 派 生 类 对 
虚拟 函数 未 曾 定制 ， 也 可 以 调用 基 类 的 成 员 函 数 。 有 时 候 ， 成 员 函 数 在 编译 时 并 
不 知道 它 是 作用 于 本 类 的 对 象 还 是 派生 于 本 类 的 子 类 对 象 。 多 态 必 须 保 证 这 种 情 

况 能 够 正确 地 工作 。 


main() { 
Apple apple; 
Fruit orange; 
Fruit *p; 
p = &apple; 
p -> peel(); 


p = &orange; 
p -> peel(); 


在 运行 时 ， 结 果 将 会 是 : 


% a.out 
peeling an apple 
peeling a base class fruit 


Bd ,,. 
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深入 思考 一 一 多 态 和 interposing 有 相似 之 处 


多 态 和 interposing 都 允许 用 一 个 标识 符 来 命名 多 个 函数 。interposing 是 一 种 多 
少 有 些 笨拙 的 方式 ， 它 在 编译 时 把 所 有 用 该 标识 符 命令 的 函数 都 绑 定 到 一 个 函数 
中 。 多 态 则 显得 精巧 一 些 ， 它 可 以 在 运行 时 根据 对 象 的 类 属 关 系 决定 调用 哪个 也 


11.17 “C++ 的 其 他 要 点 


在 前 面 对 C++ 的 重点 进行 简要 介绍 时 ， 我 们 省 略 了 很 多 相对 较 小 的 概念 。 
C++ 中 有 许多 更 详尽 的 规则 适用 于 此 处 所 提 及 的 概念 。 然 而 ， 如 果 能 够 精通 本 章 
中 的 内 容 ， 你 将 会 对 OOP 的 概念 和 它们 在 C++ 中 的 表达 形式 有 一 个 基本 的 了 解 。 
你 将 拥有 一 个 展 好 的 开端 来 编写 实验 性 质 的 C++ 程序 。 这 里 未 提 及 的 C++ 概念 还 
有 以 下 几 个 。 


。 异常 (exception): C++ 的 这 个 概念 源 于 Ada， 也 源 于 Clu (MIT 所 开发 的 一 种 
实验 性 的 语言 ， 它 的 关键 思想 是 cluster [和 集群] ) 。 它 用 于 在 错误 处 理 时 改 
变 程序 的 控制 流 。 异 常 通 过 发 生 错 误 时 把 处 理 自动 切换 到 程序 中 用 于 处 理 错 
误 的 那 部 分 代码 ， 以 简化 错误 处 理 。 


模板 (template 〉: 这 个 特性 支持 参数 化 类 型 。 同 类 /对 象 的 关系 一 样 ， 模 板 / 
函数 的 关系 也 可 以 看 作 是 为 算法 提供 一 种 “甜点 刀具 ”的 方法 。 一 旦 确定 了 基 
本 的 算法 ， 你 可 以 把 它 应 用 于 不 同 的 类 型 。 它 类 似 于 Ada 中 的 泛 型 技术 和 Clu 
中 的 参数 化 模块 。 它 的 语义 比较 复杂 ， 下 面 的 代码 : 


templatex<class T> T min(T a，T b) { retrn (a< b) ?a:b;} 


允许 你 对 min 函 数 和 变量 a、b 赋 予 任意 的 类 型 T (该 类 型 必须 能 接受 < 操 
作 符 ) 。 有 些 人 称 模板 为 编译 时 的 多 态 。 这 是 一 个 优点 ， 但 它 也 意味 着 一 个 
通过 模板 声明 的 操作 可 以 由 许多 不 同 的 类 型 来 进行 ， 所 以 你 必须 在 编译 时 决 
定 使 用 哪个 类 型 。 


内 联 (inline〉 函 数 ; 程序 员 可 以 规定 茶 个 特定 的 函数 在 行内 以 指令 流 的 形式 
展开 《就 像 宏 一 样 ) ， 而 不 是 产生 一 个 函数 调用 。 


new 和 delete 操 作 符 : 用 于 取代 mallocO0 和 free0 函 数 。 这 两 个 操作 符 用 起 来 更 
方便 一 些 〈 如 能 够 自动 完成 sizeof 的 计算 工作 ， 并 会 自动 调用 合适 的 构造 函数 


和 析 构 函数 ) 。new 能 够 真正 地 建立 一 个 对 象 ， 则 mallocO 函 数 只 是 分 配 内 
存 。 

。 传 引用 调用 〈call-by-rererence， 相 当 于 传 址 调用 ) : C 语 言 只 使 用 传 值 调 用 
(call-by-value〉。C++ 在 语言 中 引入 了 传 引用 调用 ， 可 以 把 对 象 的 引用 作为 
参数 传递 。 
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C++ 设 计 日 标 : 往事 已 全， 且 看 今朝 


源 自 SIGPLAN Notices, 第 21 卷 , 第 10 号 , 1986 年 10 月 
“An overview of C++” 作 者 : Bjarne Stroustrup 
第 6 六 类 了 什么 ? 


C++ 的 设计 受 限 于 严格 的 兼容 性 、 内 部 一 致 性 和 高 效率 。 任 何 特 性 如 果 会 引 
起 下 列 后 果 ， 就 不 能 被 添加 到 C++ 中 : 


。 在 源 代 码 一 级 或 链接 器 一 级 中 引起 与 C 语 言 的 严重 不 兼容 性 ; 


。 会 给 不 使 用 该 特性 的 程序 带 来 运行 时 间或 空间 的 额外 负担 ; 


。 会 增加 C 程 序 的 运行 时 间或 空间 需求 ; 


。 与 C 语 言 相 比 会 显著 增加 编译 时 间 ; 


。 只 能 够 通过 在 编译 环境 《链接 器 、 载 入 器 等 ) 中 附加 条 件 来 实现 ， 无 法 
简单 而 有 效 地 在 传统 的 C 编 程 环境 中 实现 。 


有 些 也 许 应 该 被 添加 ， 但 由 于 上 述 准则 最 终 还 是 被 割爱 的 特性 有 垃圾 收集 、 
参数 化 类 、 异 常 、 多 重 继承 、 对 并 发 性 的 支持 以 及 语言 与 编程 环境 的 整合 。 并 非 
所 有 这 些 可 能 的 扩展 都 适合 C++。 在 选择 和 设计 语言 的 特性 时 ， 如 果 不 对 其 实行 
严格 的 限制 ， 其 结果 可 能 就 是 产生 一 堆 庞 大 、 和 有 笨拙 而 效率 低下 的 垃圾 。C++ 设 计 
上 的 严格 限制 也 许 会 带 来 益处 ， 并 继续 指引 C++ 的 发 展 。 


啊 ! 那 是 什么 年 代 啊 ! 那 时 的 美国 总 统 还 是 里 根 ， 那 时 的 西红柿 调味 桨 还 是 
一 各 蔬菜， 树木 还 是 污染 的 主要 来 源 ，C++ 也 还 没有 加 入 参数 化 类 、 异 和 常 和 多 重 
继承 。 


11.18 ”如 果 我 的 目标 是 那里 ， 我 不 会 从 这 里 起 步 


编程 语言 有 一 个 特性 ， 称 为 正 交 性 〈orthogonality) 。 它 是 指 不 同 的 特性 遵循 
同一 个 基本 原则 的 程度 (也 就 是 学 会 一 种 特性 有 助 于 学 习 其 他 的 特性 ) 。 例 如 ， 
在 Ada 中 ， 程 序 员 一 旦 明白 了 包 (package) 的 工作 原理 ， 也 就 能 够 把 这 个 知识 应 
用 于 泛 型 包 中 。 令 人 不 快 的 是 ，C++ 中 的 许多 特性 是 非 正 交 性 的 。 精 通 C++ 的 某 
个 特性 并 不 能 给 你 带 来 什么 线索 或 向 你 启发 适用 于 其 他 特性 的 思想 模型 。 大 多 数 
程序 员 选 择 了 只 使 用 C++ 中 较 简 单 的 一 个 子 集 的 方法 。 
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C++ 的 一 个 简单 子 集 


尽量 使 用 的 C++ 特性 : 
。 类 ; 
。 构造 函数 和 析 构 函数 ， 但 只 限于 函数 体 非 常 简单 的 例子 ; 
。 重 载 ， 包 括 操 作 符 重 载 和 IO; 
。 单 重 继承 和 多 态 。 
避免 使 用 的 C++ 特性 : 
。 模板 ; 


已 A 
® J 


e 虚 基 类 (virtual base class) ; 


. 多 重 继承 。 


编程 语言 的 主要 目标 是 提供 一 个 框架 ， 用 计算 机 能 够 处 理 的 方式 表达 问题 的 
解决 方法 。 编 程 语言 越 是 能 够 体现 这 个 原则 ， 就 越 成 功 。Fortran 语 言 是 第 一 个 高 
级 语言 ， 它 提供 了 强大 的 方法 来 表达 数学 公式 (Fortran 这 个 名 字 的 意思 
是 “Formula translation”[ 公式 翻 译 ] ) 。COBOL 语 言 把 自己 定位 在 文件 处 理 、 数 
值 运 算 和 输出 编辑 上 ， 并 在 这 些 领域 获得 了 巨大 的 成 功 。C 语 言 向 系统 程序 员 提 
供 了 许多 由 人 硬件 直接 支持 的 操作 ， 它 并 不 使 用 许多 的 抽象 层 来 “ 挡 路 ”。 


门 语言 ， 如 果 它 的 结构 是 有 用 的 “建构 块 "， 便 于 堆积 起 来 解决 条 个 特定 领 
域 的 问题 ， 它 就 能 获得 成 功 。 决 定语 言 中 的 哪些 部 分 可 以 构成 “建构 块 ”是 语言 设 
计 中 最 重要 的 部 分 。 实 现 细节 ， 像 把 分 号 作为 语句 终结 符 〈 如 C/C++ 语言 ) 还 是 
语句 分 隔 符 (如 Pascal 语 言 ) 这 样 的 问题 也 不 可 忽略 ,但 “建构 块 ”* 的 问题 是 关键 性 
的 。C++ 语 言 的 成 功 程度 取决 于 它 的 特性 是 否 是 良好 的 “建构 块 "， 能 够 解决 有 趣 
的 问题 ， 也 取决 于 语言 能 否 被 正 第 的 程序 员 可 靠 地 使 用 。 


有 些 人 声称 C++ 类 会 给 软件 的 复 用 性 带 来 革命 性 的 进展 。 复 用 是 软件 科学 的 
一 个 崇高 而 又 膀胱 的 目标 。 继 承 看 上 去 并 不 能 完全 解决 复 用 问题 。 那 些 记性 好 的 
人 也 许 还 记得 十 年 前 为 Ada 所 设立 的 庞大 目标 。 让 我 们 打 个 比方 ， 把 一 个 计算 机 
程序 比 作 是 一 本 书 。 然 后 你 既 有 一 个 图 书馆 ， 又 有 一 个 程序 库 。 你 想 复 用 程序 中 
的 一 些 子 程序 ， 就 好 像 是 复 用 书 中 的 部 分 章节 。 
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设计 挑战 : C++ 机 器 


过 去 ， 有 些 人 制造 了 一 些 具 有 特殊 用 途 的 计算 机 硬件 ， 它 们 在 执行 某 种 特殊 
的 语言 时 效率 非常 高， 


Algol-60: 早 期 的 Burroughs 处 理 器 。 
Lisp:Symbolics Inc。 
Ada:Rational Compnuters 。 


一 人 台 C++ 机 器 会 是 什么 样子 的 呢 ? 为 什么 所 有 这 些 特殊 的 语言 机 器 的 下 场 都 
很 凄惨 呢 ? 


这 是 一 个 难以 回答 的 问题 一 一 无 法 用 一 个 共同 的 主题 来 描述 。 单 一 语言 机 器 
的 市 场 总 是 不 如 通用 语言 的 机 器 。 工 作 站 轻易 地 击败 了 Lisp 机 器 。 冷 战 的 结束 也 
为 Ada 机 器 划 上 了 句号 。Burroughs 作 为 Unisys 的 一 部 分 仍 在 奋力 挣扎 。 


问题 是 无 法 通过 从 其 他 书 中 裁 盘 和 粘贴 完整 的 段落 来 创建 任何 有 价值 的 读 
本 。 这 个 抽象 的 层次 是 错误 的 。 可 以 从 单个 单词 或 字母 的 层次 (对 应 于 代码 的 单 
行 或 字符 ) 上 进行 文本 的 共享 。 但 把 这 些 词 或 字母 一 一 裁剪 出 来 的 工作 量 大 得 吓 
人 ， 还 不 如 让 它 保 持原 样 ， 目 己 另起炉灶 从 头 开 始 。 与 此 相同 ， 在 库 的 层次 上 进 
行 软件 的 复 用 实际 上 比 预想 的 效果 要 差 。 


有 一 小 部 分 特殊 目的 的 实用 程序 能 够 被 共享 : 数学 函数 库 、 一 些 数 据 结构 程 
序 以 及 排序 和 查找 库 函 数 。 就 是 它们 了 ! 它们 好 比 是 书 中 的 图 表 或 参考 资料 ， 它 
们 可 以 被 整个 地 引用 ， 其 他 程序 员 也 能 够 理解 它们 。 


C++ 在 软件 的 复 用 性 方面 或 许可 以 比 以 前 的 语言 取得 更 大 的 成 功 。 因 为 
C++ 中 继承 的 风格 基于 对 象 ， 既 允许 数据 的 继承 ， 也 人 允许 代码 的 继承 。Ada 的 泛 


型 技术 也 能 做 到 这 一 点 ， 但 Ada 语 言 的 特性 过 于 笨拙 ， 而 且 对 于 绝 大 多 数 程序 员 
来 说 显得 过 于 抽象 。 继 续 上 面 的 比方 ，C++ 可 以 使 图 书 的 借阅 登记 更 为 方便 ， 但 
你 仍然 面临 如 何 合理 地 复制 书本 相关 部 分 的 问题 。 


11.19” 它 或 许 过 于 复杂 ， 但 却 是 唯一 可 行 的 方案 


在 本 书 的 开始 几 章 ， 我 们 已 经 见识 了 C 语 言 的 一 些 严 重 弱 点 。 如 果 C++ 能 够 
在 保持 C 语 言 风 格 的 基础 上 弥补 这 些 弱 点 ， 那 将 非常 令 人 欢欣 鼓舞 。 话 虽 如 此 ， 
但 C++ 并 没有 这 样 做 ， 因 为 这 个 想法 本 来 就 不 对 。C++ 确 实 有 一 些 改进 ， 但 它 仍 
然 保 留 了 C 语 言 的 许多 缺陷 ， 而 且 在 它 的 上 面 又 堆积 了 大 量 复杂 的 东西 。C 语 言 原 


一 ps 


先 的 设计 哲学 “所 有 特性 都 不 需要 隐 式 的 运行 时 支持 ”已 经 做 了 一 定 程度 的 受 协 。 


| 
软件 信条 


C++ 对 C 语 言 的 改进 


。 在 C 语 言 中 ， 初 始 化 一 个 字符 数组 的 方式 很 容易 产生 这 样 一 个 错误 ， 即 
数组 很 可 能 没有 足够 的 空间 存放 结尾 的 NULL 字 符 。C++ 对 此 作 了 一 些 改进 ， 
像 char b[3] = "Bob" 这 样 的 表达 式 被 认为 是 一 个 错误 ， 但 它 在 C 语 言 中 却 是 合 
的 。 

。 类 型 转换 既 可 以 写成 像 float(i) 这 样 看 上 去 更 顺眼 的 形式 ， 也 可 以 写成 像 
(floatji 这 样 稍 显 怪 异 的 C 语 言 风 格 的 形式 。 


。 C++ 人 允许 一 个 常量 整数 来 定义 数组 的 大 小 : 


const int size = 128; 
char a[size]; 


这 在 C++ 中 是 允许 的 ， 但 在 C 语 言 中 却 是 错误 的 。 


。 声明 可 以 穿插 于 语句 之 间 。 在 C 语 言 中 ， 一 个 语句 块 中 所 有 的 声明 都 必 
须 放 在 所 有 语句 的 前 面 。C++ 去 挥 了 这 个 专横 的 限制 ， 做 得 非 党 好。 既然 这 
种 做 法 也 会 引起 与 C 语 言 的 不 兼容 ， 那 为 什么 不 进行 得 彻底 一 些 ， 为 C 语 言 声 
明 语 法 提供 一 种 更 简单 的 蔡 代 方案 呢 ? 


尽管 C++ 显得 过 于 复杂 ， 但 它 是 对 C 语 言 唯一 成 功 的 改造 方案 ， 拥 有 大 和 群 的 
支持 者 。 所 有 在 AT&T 开 发 的 新 东西 据说 现在 都 已 加 入 到 C++ 中 。Windows 
NT〔 它 出 现 较 晚 ， 而 且 比 想象 中 的 要 慢 ， 体 积 也 非常 上 硕大) 的 图 形 部 分 就 是 用 
C++ 编写 的 。 现 在 ， 大 多 数 新 型 软件 开发 工具 、 应 用 程序 库 和 高 级 技术 都 是 用 
C++ 编写 的 ， 或 至 少 是 它 的 ANSI C 子 集 。 不 知道 要 过 多 少时 间 ， 我 们 可 以 看 到 由 
于 C++ 的 特性 《而 不 是 C 的 特性 ) 而 引起 或 恶化 的 壮观 的 Bug， 就 像 让 AT&T 整 个 
长 话 网 络 次 疾 的 那个 Bug 一 样 。 


但 这 并 没有 什么 。 尽 管 存在 缺陷 ，C++ 仍 将 被 广泛 使 用 ， 我 们 希望 它 最 终 能 
向 一 种 更 好 的 形式 发 展 。 


小 局 发 


从 C 转 换 到 C++ 


学 习 C++ 最 好 的 方式 就 是 从 它 的 ANSI C 子 集 开 始 编程 。 避 免 使 用 早期 基于 
CFront 的 编译 器 ， 它 所 产生 的 是 C 代 码 而 不 是 机 器 代码 。 把 C 语 言 作为 一 种 可 移植 
的 机 器 语言 事实 上 会 使 链接 和 调试 复杂 化 ， 因 为 CFront 把 所 有 的 函数 名 字 混 合 在 
一 起 ， 为 参数 信息 编写 内 部 代码 。 名 字 混 合并 不 可 靠 ， 它 会 带 来 可 怕 的 危险 ， 并 


可 能 长 期 存在 于 C++ 中 。 与 C++ 相反 ，Ada 对 这 个 问题 的 处 理 非 常 得 体 ， 而 且 它 使 
用 正规 的 实现 方法 来 定义 语言 的 语义 。 名 字 混 合 是 一 种 在 不 同 的 文件 之 间 进 行 类 
型 检查 时 采用 的 权宜 之 集 ， 但 它 瞳 示 你 所 有 的 C++ 代 码 必须 用 同一 个 编译 器 编 
译 ， 因 为 名 字 混 合 策略 在 不 同 的 编译 器 上 可 能 各 不 相同 。 对 于 C++ 的 复 用 模型 而 
言 ， 这 是 一 个 巨大 的 缺陷 ， 因 为 它 有 效 地 防止 了 二 进 制 一 级 的 复 用 。 


这 里 有 一 个 代表 性 的 例子 ， 说 明了 C 语 言 并 非 C++ 的 子 集 ， 并 提示 何 处 可 能 
隐藏 大 麻烦 。 


在 C++ 中 存在 ， 但 在 C 语 言 中 却 不 存在 的 限制 有 : 


。 在 C++ 中 ， 用 户 代 码 不 能 调用 main0 函 数 ， 但 在 C 语 言 中 却 是 允许 的 《不 
过 这 种 情况 极为 罕见 ) ; 


。 完整 的 函数 原型 声明 在 C++ 中 是 必须 的 ， 但 在 C 语 言 中 却 没 这 么 严格 ; 


。 在 C++ 中 ， 由 typedef 定 义 的 名 字 不 能 与 己 有 的 结构 标签 冲突 ， 但 在 C 语 言 
中 却 是 允许 的 《它们 分 属 不 同 的 名 字 空 间 ) ; 


。 当 void* 指 针 赋 值 给 另 一 个 类 型 的 指针 时 ，C++ 规 定 必须 进行 强制 类 型 转 
换 ， 但 在 C 语 言 中 却 无 必要 。 


在 C++ 和 C 语 言 中 具有 不 同 含义 的 特性 有 下 面 这 些 。 


。 C++ 至 少 增加 了 十 几 个 关键 字 。 这 些 关 键 字 在 C 语 言 中 可 以 作为 标识 符 使 
用 ， 但 如 果 这 样 做 了 ， 用 C++ 编译 器 编译 这 些 代码 时 就 会 产生 错误 信息 。 


。 在 C++ 中 ， 声 明 可 以 出 现在 语句 可 以 出 现 的 任何 地 方 。 在 C 语 言 中 的 代码 
块 中 ， 所 有 的 声明 必须 出 现在 所 有 语句 的 前 面 。 


。 在 C++ 中 ， 一 个 内 层 作 用 域 的 结构 名 将 会 隐藏 外 层 空间 中 相同 的 对 象 
名 。 在 C 语 言 中 则 非 如 此 。 


e 在 C++ 中 ， 字 符 常 量 的 类 型 是 char， 但 在 C 语 言 中 ， 它 们 的 类 型 是 int。 也 
就 是 说 ， 在 C++ 中 ，sizeof('a”) 的 结果 是 1， 而 在 C 语 言 中 ， 它 的 值 要 大 一 些 。 


。 由 于 C++ 增加 了 新 的 /注释 符 ， 因 此 有 时 会 在 两 种 语言 中 产生 微妙 而 怪异 
的 差别 (第 2 章 对 这 个 问题 已 有 所 描述 〉。 


C 和 C++ 之 间 的 不 同 之 处 还 有 很 多 ， 但 现在 你 已 经 知道 了 足够 多 的 可 能 引起 
和 危险 的 情况 。 所 以 你 要 保持 警惕 ， 避 免 出 现 危 险 。 当 对 编译 器 和 所 有 用 于 ANSI C 
这 个 C++ 子 集 的 工具 了 如 指 党 时， 便 可 以 定义 自己 的 类 。 选 择 一 本 优秀 的 C++ 图 
书 〈 浏 览 数 册 ， 选 择 一 本 在 风格 上 你 最 喜欢 的 ) ， 注 意 它 必 须 把 握 住 这 门 语 言 的 
脉搏 〈C++ 语 言 仍 在 发 展 之 中 ) ， 它 必须 涵盖 异常 和 模板 ， 这 两 个 特性 是 迄今 为 
止 9I 最 晚 加 入 到 C++ 中 的 。 


和 C 语 言 一 样 ，C++ 语 言 的 标准 化 也 是 由 ISO 和 ANSI X3J16 一 起 进行 的 。 最 乐 
观 的 估计 也 需要 6 年 ， 也 就 是 1996 年 ， 才 能 完成 C++ 语言 的 标准 化 趾 。 注 意 你 的 书 
中 应 该 提 及 ANSI C++ 的 进展 。 


小 启发 


protected abstract virtual base pure virtual private destructor 是 什么 


让 我 们 对 它 进行 仔细 分 析 ， 这 需要 一 些 时 间 。 上 面 这 人 句 话 实际 上 可 以 分 成 两 
个 部 分 ， 从 一 个 protected abstract virtual base 派 生 而 来 的 pure virtual private 


destructor。 


。 private destructor 就 是 一 个 对 象 离开 其 生存 范围 时 所 调用 的 函数 。private 
表示 它 只 能 被 本 类 的 成 员 函 数 或 友 元 lg (friend) 访问 。 


. pure virtual 函 数 本 身 没 有 代码 ， 但 它 可 以 通过 继承 作为 派生 类 虚拟 函数 实 
现 的 指导 准则 。 


. pure virtual destructor 只 有 在 被 派生 类 履 盖 以 后 才 有 意义 。 由 于 析 构 函数 
能 够 自动 进行 类 缺 省 的 清理 工作 ， 如 同调 用 成 员 或 基 类 的 析 构 函数 一 样 ， 所 
以 通常 并 不 需要 在 析 构 函数 的 定义 中 显 式 地 编写 任何 代码 。 


该 解释 清楚 了 吧 ? 让 我 们 看 一 下 第 二 部 分 。 


长 


. abstract virtual base 表 示 基 类 是 被 多 个 多 重 继承 的 类 所 共享 〈 它 是 虚 基 
类 ) ， 它 至 少 包含 一 个 纯 虚 函数 〈pure virtual function) ， 其 他 的 类 通过 继承 
从 它 派 生 《〈 所 谓 抽象 基 类 ) 。 虚 基 类 也 有 其 特殊 的 初始 化 语义 。 


protected abstract virtual base 类 是 指 我 们 的 类 是 以 protected 形 式 派生 的 。 
该 类 的 后 续 派生 类 可 以 访问 父 类 的 信息 ， 但 其 他 的 类 则 不 允许 。 


现在 ， 把 它们 放 在 一 起 ， 一 个 protected abstract virtual base pure Virtual private 
destructor 就 是 一 个 析 构 函数 ， 它 具有 下 列 特点 : 


。 只 能 被 该 类 的 成 员 函 数 或 友 元 调用 ; 


. 在 声明 它 的 基 类 中 没有 定义 ， 但 它 将 在 派生 类 中 定义 ; 
。 它 〈 指 派生 类 ) 共享 一 个 多 重 继 承 的 基 类 ，; 
. 它 〈 指 基 类 ) 以 protected 方 式 继承 。 


上 一 次 我 们 是 什么 时 间 用 到 它 呢 ? 嗯 .……… 想 起 来 了 ! 我 们 从 来 没有 用 到 过 
它 。 这 个 声明 是 不 是 让 人 想起 快速 傅 里 叶 变 换 的 程序 试验 呢 ?” 从 复杂 性 上 讲 ， 它 


可 以 与 之 比肩 。 


在 C++ 的 代码 中 ， 大 概 可 以 这 样 表达 : 


class Vvbct{ 
protected: virtual void v() = 0; 
private: virtual ~vcb() = 8; 


}; 
// vbc 是 一 个 抽象 类 ， 因 为 它 包含 纯 虚 拟 函 数 
class X : virtual protected vbc { 
// Xx 虚拟 地 从 继承 于 vbc， 而 且 vbc 的 protected 成 员 也 是 X 的 protected 成 员 
//” 所 以 vbc 是 X 的 protected abstract virtual base 类 
protected: void v() {} 
~X() { /* 执行 一 些 X 类 的 清理 工作 */ } 


//“ 当 一 个 X 对 象 被 销毁 时 ， X: :~X() 被 调用 ， 然 后 …. 
// X 的 protected abstract virtual base pure virtual private destructor 也 被 调用 。 所 
以 尽管 它 在 声明 中 是 纯 函 数 ， 但 它 仍 然 需要 定义 


正 是 这 种 语义 上 的 复杂 性 ，C++ 才 有 了 过 度 复杂 的 名 声 。 问 题 并 不 是 出 在 单 
个 的 语言 特性 上 ， 而 是 多 个 特性 交织 在 一 起 相互 作用 产生 了 复杂 性 。 对 这 个 问题 
的 讨论 就 到 此 为 止 ， 读 者 可 以 自己 得 出 结论 。 


11.20 ”轻松 一 下 一 一 死亡 计算 机 协会 


世界 上 存在 很 多 各 种 各 样 的 和 计算 机 相关 的 组 织 ， 其 中 最 不 寻常 的 一 个 勾 怕 
要 算 死 亡 计 算 机 协会 (Dead Computers Society) 。 


死亡 计算 机 协会 的 名 字源 于 “已 故 诗人 协会 "， 后 者 实际 上 是 一 个 染 尚 古代 诗 
人 的 群体 。 死 亡 计 算 机 协会 深 尚 的 目标 是 已 不 复 存 在 的 计算 机 体系 结构 。 它 始 于 
1991 年 加 州 圣 克拉 拉 ASPLOS (Architecture Support for Programming Language and 
0S's， 编 程 语言 和 操作 系统 的 架构 文 持 ) 会 议 一 个 非 正 式 的 讨论 小 组 。 一 群 到 会 
的 朋友 和 同事 注意 到 他 们 中 的 许多 人 曾经 在 现 已 不 再 使 用 的 系统 上 工作 。 


他 们 决定 成 立 死亡 计算 机 协会 ， 让 人 们 重新 想起 这 些 系 统 。 他 们 举办 了 开放 
式 的 座谈 会 ， 讨 论 与 此 相关 的 主题 。 他 们 和 希望 一 个 充满 智慧 的 回顾 能 够 让 未 来 的 
设计 者 吸取 以 前 的 教训 。 任 何人 只 要 对 已 不 复 存 在 的 计算 机 系统 (最 理想 的 情况 
是 创建 该 系统 的 公司 也 不 复 存在 了 ) 的 设计 、 创 建 或 编程 有 所 帮助 ， 都 可 以 加 入 
到 死亡 计算 机 协会 中 。 己 经 不 复 存 在 的 计算 机 系统 非常 之 多 ， 表 11-3 列 出 了 其 中 


的 一 部 分 。 


表 11-3 已 不 复 存 在 的 计算 机 系统 


死亡 计算 机 荣誉 榜 
e。 American Supercomputer Inc. e Intel iPSC/1 
e。 Ametek /Symult e。 Intel iPSC/2 
®。 Astronautics e。 Intel/ Siemens BiiN 
。 Burroughs BSP e。 Masscomp / Concurrent 
。 CDC 7600, Cyberplus e Multiflow 


e。 CHoPP e。 Myrias 

。 Culler Scientific 。 Niche 

e。 Cydrome 。 Prisma 

e Denelcor e SCS 

® Elxsi 。 SSI 

e。 Evans & Sutherland CD e。 Star Technologies 
。 ETA/CDC 。 SuperTek 

e。 FLEX(Flexible Computer) e Suprenum / Siemens 
e。 Goodyear Aerospace/Loral DataFlow Systems e Texas Instruments ASC 
。 Guiltech/SAXPY e Topologix 

。 Floating Point Systems AP-line and T-series e。 Unisys ISP 

e。 Intel 432 


另 一 方面 ， 任 何人 只 要 认同 这 个 协会 的 宗 则 ， 就 可 以 加 入 该 协会 。 在 协会 的 
开幕 会 议 上 ， 参 加 者 超过 了 350 人 。 


协会 的 主持 人 试图 让 成 员 明 白 “ 协 会 的 唯一 事务 ， 压 倒 一 切 的 工作 ， 就 是 关注 
你 的 死亡 计算 机 ”。Elxsi 设 计 者 表示 决 朱 者 在 推动 拉 术 发 展 方面 太 起 劲 ， 在 时 机 
尚 不 成 熟 之 际 就 开始 使 用 ECL (Emitter-Coupled Logic， 发 射 极 耦 极 逻 辑 ) 。 但 


是 ，Multiflow《〈 差 不 多 和 Elxsi 同 时 退出 历史 舞台 ) 的 首席 架构 师 却 认为 ， 公 司 不 
采用 ECL 的 决定 是 导致 Multiflow 最 终 消 亡 的 原因 之 一 。 


大 家 所 取得 的 唯一 共识 大 概 就 是 管理 和 市 场 状 况 是 导致 许多 公司 破产 的 原 
因 ， 它 们 比 单纯 的 技术 失败 更 为 常见 。 这 也 是 可 以 理解 的 ， 那 些 不 时 刻 注意 顾客 
需求 的 公司 终究 难以 为 继 ， 最 能 掌握 这 项 艺术 的 公司 往往 能 获得 成 功 。 


会 上 还 有 一 些 较 小 的 技术 主题 ， 像 如 何 让 你 的 产品 难以 编程 (如 CDC7600 的 
双 层 内 存 ， 或 使 用 补 码 运算 的 机 器 ， 或 既 残 忍 又 罕见 的 60 比 特 的 字 宽 度 ) 等 ， 这 
些 都 意义 不 大 。 令 人 非常 吃惊 的 是 ， 会 上 竟然 没有 出 现 一 个 主流 的 共同 技术 主 
题 ， 也 许 本 来 就 不 存在 吧 。 尽 管 如 此 ， 有 一 点 是 肯定 的 : 我 们 从 错误 中 学 到 的 要 
比 从 成 功 中 学 到 的 多 得 多 。 


11.21 更 多 阅读 材料 


我 发 现 有 一 本 书 非常 有 用 ， 那 就 是 C: A Reference Manual， 作 者 是 Samuel P. 
Harbison 和 Guy L. Steele (Englewood Cliffs, Prentice Hall) 。Harbison 和 Steele 为 许 
多 不 同 的 计算 机 系统 开发 了 一 系列 的 C 编 译 器 ， 这 些 计 算 机 系统 的 范围 非常 广 。 
他 们 在 自己 的 经 验 基 础 上 编号 了 这 本 书 ， 书 中 字里行间 闪烁 着 他 们 敏锐 的 洞察 
ys 


[1] Algol-68 是 一 种 庞大 的 语言 ， 它 基于 一 种 小 巧 而 有 效 的 语言 Algol-60。Algol- 
68 难 以 理解 ， 难 以 实现 ， 难 以 使 用 。 但 几乎 每 个 人 都 认为 它 “ 非 常 强 大 ”。Algol- 
68 取 代 了 Algol-60， 成 功 地 使 后 者 销声匿迹 。 但 由 于 使 用 不 便 ，Algol-68 也 很 快 退 
出 了 历史 舞台 。 有 些 人 觉得 C 和 C++ 的 关系 颇 像 两 个 Algol] 之 间 的 关系 。 


[2] 这 并 不 是 我 异想天开 的 建议 : ANSI C 中 命名 不 当 的 const 关 键 字 造成 了 非常 
现实 的 问题 。 这 是 个 机 会 ， 可 以 使 C++ 避免 类 似 的 问题 ， 使 C++ 里 面 这 个 未 手 的 
地 方 保持 一 致 性 。 


[3] 状 椎 是 状 索 的 一 种 ， 具 有 券 椎 的 动物 属于 兰 椎 动物 亚 门 。 由 于 状 索 动物 门 中 
不 属于 兰 椎 动物 亚 门 的 动物 极为 罕见 ， 所 以 可 以 近似 地 把 兰 椎 动物 亚 门 看 成 是 状 
索 动 物 门 。 一 一 译 者 注 


[4] 不 要 把 C++ 的 iostream (以 前 称 作 stream〉 这 个 IO 接口 和 无 关 的 UNIX 内 核 
STREAM 框 架 泥 淆 ， 后 者 是 用 于 设备 驱动 程序 和 用 户 进程 之 间 的 通信 。 


[5] 作者 在 原文 中 也 使 用 重 载 (overload) 这 个 术语 来 表示 这 种 机 制 ， 但 在 
C++ 中 ，overload 〈 重 载 ) 和 override (覆盖 ) 显然 不 同 。 一 一 译 者 注 


[6] 1994 年 。 一 一 译 者 注 


[7] 事实 上 是 1998 年 。 译 者 注 


[8] 友 元 不 是 类 的 成 员 函 数 ， 但 它 可 以 访问 类 的 private 和 public 成 员 。 友 元 可 以 是 
函数 或 类 ， 它 必须 在 它 能 够 访问 的 类 中 声明 。 如 : 


class fruit { private: ... 


public: ... 
friend action(); 
上 
action() 函 数 就 是 fruit 类 的 友 元 (但 不 是 它 的 成 员 函 数 ) ， 它 可 以 访问 fruit 类 对 象 


的 private 成 员 。 译 者 注 


附录 A 程序 员工 作 面 试 的 秘密 


对 硬件 知识 一 知 半 解 是 非常 危险 的 。 一 位 程序 员 把 一 张 能 演奏 倘 歌 的 新 奇 圣 
诞 卡片 拆 了 开 来 ， 取 出 其 中 的 压 电 乐曲 芭 户 。 他 偷偷 地 把 它 安装 在 老板 的 键盘 
上 ， 并 连接 到 一 个 发 区 二 极 管 上 。 他 进行 了 测试 ， 一 个 能 够 点 亮 发 光 二 极 管 的 电 
压 足 以 驱动 一 块 这 样 的 芯片 。 

接着 ， 我 〈 噢 ! 说 错 了 ， 我 指 的 是 那 位 程序 员 ) 修改 了 系统 编辑 器 ， 当 它 局 
动 时 点 党 发 光 二 极 管 ， 当 它 退 出 时 关闭 发 光 二 极 管 。 结 果 ， 只 要 老板 一 使 用 这 个 
编辑 器 ， 他 的 终端 就 会 持续 演奏 圣诞 颁 歌 ! 半 小 时 以 后 ， 隔 壁 办 公 室 的 人 们 群情 
激 怪 ， 蜂 拥 而 至 ， 人 迫使 老板 停 下 工作 ， 直 到 秘 事 原因 被 发 现 为 止 。 


一 一 Jpe Second Official Handbook of Practical Jokes 


A.1 硅谷 程序 员 面 试 


本 附录 提供 了 一 些 在 顶级 公司 寻找 位 置 的 C 程 序 员 面试 过 程 的 提示 。 人 尖端 计 
算 机 行业 最 值得 称道 的 事情 之 一 就 是 选择 新 雇员 加 入 队伍 的 不 寻常 方法 。 在 许多 
行业 中 ， 管 理 者 或 经 理 全 权 负 责 员工 的 录取 ， 但 事实 上 他 所 提出 的 应 征 条 件 往往 
只 有 他 自己 才 符 合 。 但 是 ， 在 软件 开发 的 尖端 领域 ， 尤 其 是 高 科技 企业 刚刚 成 立 
并 运营 时 ， 程 序 员 往 往 比 决定 哪 位 候选 人 是 技术 最 佳 的 “个 人 应 征 者 ”的 经 理 更 有 
资格 说 三 道 四 。 需 要 做 一 些 系统 开发 的 天 才 程 序 员 极为 罕见 ， 对 他 的 要 求 也 格外 
具体 。 所 以 有 时 候 技术 能 力 是 你 寻求 工作 面试 时 唯一 重要 的 特长 。 


所 以 ， 程 序 员 面 试 就 形成 了 一 种 非常 独特 的 风格 。 经 理 根据 公司 的 策略 ， 在 
众多 面试 者 中 寻找 人 才 。 那 些 有 望 入 围 者 接着 要 进行 一 番 技 术 上 的 严格 考核 ， 考 
核 人 员 是 开发 队伍 的 每 个 人 ， 而 不 仅仅 是 经 理 。 一 个 典型 的 工作 面试 将 持续 一 整 
天 ， 包 括 连 续 与 六 七 个 不 同 的 工程 师 进 行 一 小 时 左右 的 会 谈 一 一 他 必须 让 所 有 人 
信服 他 的 确 有 能 力 加 入 到 开发 小 组 中 ， 然 后 才能 得 到 一 份 工 作 承 诺 。 


工程 师 常 常 有 一 些 自 己 最 喜欢 问 的 问题 ， 本 章 就 包含 了 一 些 工 程 师 襄 欢 的 问 
题 。 汇 露 这 些 “ 机 密 ” 并 无 害处 一 一 一 位 阅读 了 本 书 的 程序 员 很 可 能 已 经 拥有 足够 
的 知识 ， 足 以 加 入 一 家 优秀 的 软件 公司 。 这 些 问题 中 的 许多 源 于 我 们 在 编程 时 用 
到 的 真实 算法 ， 现 在 已 经 被 其 他 人 用 新 的 问题 所 取代 。 当 然 ， 你 在 面试 候选 人 时 
并 不 仅仅 看 重 他 们 对 问题 做 什么 样 的 反应 ， 你 常 第 也 很 在 意 他 们 是 怎样 做 出 反应 
的 。 他 们 是 对 一 个 问题 深思 熟 虑 后 提出 几 种 可 能 性 ， 还 是 在 脑子 里 一 有 想法 就 脱 
口 而 出 ? 他 们 在 说 明 自 己 的 思路 时 所 提 的 论据 是 否 有 足够 的 说 服 力 ? 他 们 是 不 是 
对 一 个 明显 错误 的 策略 固执 已 见 ， 还 是 思维 灵活 ， 很 快 就 完善 自己 的 答案 ?下面 
的 有 些 问题 产生 了 最 奇怪 的 答案 。 你 可 以 自己 试验 一 下 ， 拓 量 一 下 自己 的 份量 ! 


A.2 怎样 才能 检测 到 链表 中 存在 循环 


这 个 问题 看 上 去 比较 简单 ， 但 随 着 提问 者 不 断 对 问题 施加 一 些 额 外 的 限制 ， 
这 个 问题 很 快 就 变 得 面目 钴 狩 。 


通常 第 一 种 答案 : 


对 访问 过 的 每 个 元 素 进行 标记 ， 继 续 裔 历 这 个 链表 ， 如 果 巡 到 某 个 已 经 标记 
过 的 元 素 ， 说 明 链 表 存 在 循环 。 


第 二 个 限制 : 


这 个 链表 位 于 只 读 内 存 区 域 ， 无 法 在 元 素 上 作 标 记 。 


当 访 问 每 个 元 素 时 ， 把 它 存储 在 一 个 数组 中 。 检 查 每 一 个 后 继 的 元 素 ， 看 看 
它 是 否 已 经 存在 于 数组 中 。 有 了 时候 ， 一些 可 怜 的 程序 员 会 纠缠 于 如 何 用 散 列 表 来 
优化 数组 访问 的 细节 ， 结 果 在 这 一 关卡 了 壳 。 


第 三 个 限制 : 


噢 ! 内 存 空间 非常 有 限 ， 无 法 创建 一 个 足够 长 度 的 数组 。 然 而 ， 可 以 假定 如 
果 链 表 中 存在 循环 ， 它 出 现在 前 N 个 元 素 之 中 。 


通常 第 三 种 答案 (如 果 这 位 程序 员 能 够 到 达 这 一 步 ): 


设置 一 个 指针 ， 指 回 链 表 的 头 部 。 在 接 下 去 对 直到 第 N 个 元 素 的 访问 中 ， 把 
N-1 个 元 素 依次 同 指针 指向 的 元 素 进行 比较 。 然 后 指针 移 向 第 二 个 元 素 ， 把 它 与 
后 面 N-2 个 元 素 进行 比较 。 根 据 这 个 方法 依次 进行 比较 ， 如 果 出 现 比较 相等 的 情 
况 就 说 明 前 N 个 元 素 中 存在 循环 ， 否 则 如 果 所 有 N 个 元 素 两 两 之 间 进 行 比较 都 不 相 


等 ， 说 明 链表 中 不 存在 循环 。 


第 四 个 限制 : 


噢 ! 不 ! 链表 的 长 度 是 任意 的 ， 而 且 循环 可 能 出 现在 任何 位 置 “即使 是 优秀 
的 候选 者 也 会 在 这 一 关 碰壁 ) 。 


首先 ， 排 除 一 种 特殊 的 情况 ， 就 是 3 个 元 素 的 链表 中 第 二 个 元 素 的 后 面 是 第 
一 个 元 素 。 设 置 两 个 指针 pl1 和 p2， 使 p1 指 疝 第 一 个 元 素 ，p2 指 癌 第 三 个 元 素 ， 看 
看 它们 是 否 相 等 。 如 果 相 等 就 属于 上 述 这 种 特殊 情况 。 如 果 不 等 ， 把 p1 同 后 移 一 
个 元 素 ，p2 问 后 移 两 个 元 素 。 检 查 两 个 指针 的 值 ， 如 果 相 等 ， 说 明 链 表 中 存在 循 
环 。 如 果 不 相 等 ， 继 续 按照 前 述 方法 进行 。 如 果 出 现 两 个 指针 都 是 NULL 的 情 
况 ， 说 明 链 表 中 不 存在 循环 。 如 果 链 表 中 存在 循环 ， 用 这 种 方法 肯定 能 够 检测 出 
来 ， 因 为 其 中 一 个 指针 肯定 能 够 妃 上 男 一 个 (两 个 指针 具有 相同 的 值 》， 不 过 这 
可 能 要 对 这 个 链表 经 过 几 次 遍历 才能 检测 出 来 。 


这 个 问题 还 有 其 他 一 些 答案 ,但 上 面 所 说 的 几 个 是 最 常见 的 。 


编程 挑战 
寻找 循环 


证 明 上 面 最 后 一 种 方法 可 以 检测 到 链表 中 可 能 存在 的 任何 循环 。 在 链表 中 设 
置 一 个 循环 ， 演 练 一 下 你 的 代码 ;把 循环 变 得 长 一 些 ， 继 续 演练 你 的 代码 。 重 复 
进行 ， 直 到 初始 条 件 不 满足 为 止 。 同 样 ， 确 定 链 表 中 不 存在 循环 时 ， 算 法 可 以 终 


提示 : 编写 一 个 程序 ， 然 后 依次 往外 推演 。 


A.3 C 语 言 中 不 同 增值 语句 的 区 别 何在 


考虑 下 面 4 条 语句 : 

x=x+1; /* 正规 形式 */ 
++X; /* 前 级 上 自 增 */ 
X++; /* 后 级 目 增 */ 
x += 1; /* 复合 赋值 */ 


显然 ， 这 4 条 语句 的 功能 是 相等 的 ， 它 们 都 是 把 x 的 值 增 加 1。 如 果 像 现在 这 
样 不 考虑 前 后 的 上 下 文 环 境 ， 它 们 之 间 并 没有 什么 区 别 。 应 试 者 需要 〈 隐 式 或 显 
式 地 ) 提供 适当 的 上 下 文 环境 ， 以 便 回 答 这 个 问题 并 找 出 这 4 条 语句 之 间 的 区 
别 。 注 意 ， 最 后 一 条 语句 是 一 种 在 算法 语言 中 表达 “x 等 于 x 加 上 1” 的 便捷 方法 。 
此 ， 这 条 语句 仅 供 参考 ， 我 们 需要 寻找 的 是 其 余 3 条 语句 的 独特 性 质 。 


绝 大 多 数 C 程 序 员 可 以 立即 指出 ++x 是 一 种 前 绥 上 自 增 ， 它 先 增加 x 的 值 然 后 再 
在 周围 的 表达 式 中 使 用 x 的 值 。 而 x++ 是 一 种 后 级 自 增 ， 它 先 在 周围 的 表达 式 中 使 
用 x 的 值 然后 再 增加 x 的 值 。 有 些 人 认为 C 语 言 存在 “++” 和 “--” 操 作 符 的 唯一 原因 是 
*p++ 在 PDP-11 第 一 个 C 编 译 器 所 用 的 机 器 机 器 上 可 以 用 一 条 单一 的 机 器 指令 
来 表示 。 事 实 并 非 如 此 ， 这 个 特性 继承 了 PDP-7 上 的 B 语 言 ， 但 自 增 和 自 减 操作 符 
在 所 有 的 硬件 系统 中 的 应 用 之 广 令 人 难以 置信 。 


有 些 程序 员 则 在 此 处 未 作 深入 考虑 ， 忽 视 了 当 x 不 是 一 个 简单 的 变量 而 是 一 
个 涉及 数组 的 表达 式 时 ， 像 x+= 1 这 样 的 形式 是 很 有 用 的 。 如 果 你 有 一 个 复杂 的 
数组 引用 ， 并 需要 证 明 同 一 种 下 标 形式 在 两 种 引用 中 都 可 以 使 用 ， 那 么 


node[i>>3] += -(6x6ol << ( i & 8x7)); 


就 是 你 应 该 采用 的 方法 。 这 个 例子 是 我 直接 从 操作 系统 的 代码 中 取出 来 的 ， 
只 对 数据 名 作 了 改动 “为 了 保密 〉 。 优 秀 的 应 试 者 还 能 够 指出 左 值 〈 定 位 一 个 对 
象 的 表达 式 的 编译 器 用 语 一 一 通常 具有 一 个 地 址 ， 但 它 既 可 能 是 一 个 寄存 器， 也 


可 能 是 地 址 或 寄存 器 加 上 一 个 位 段 ) 只 被 计算 了 一 次 。 这 一 点 非常 重要 ， 因 为 下 
面 的 语句 : 

被 当 作 
mango[i] = mango[i] + y; i++; 


而 不 是 


mango[i++] = mango[i++] + y; 


以 前 ， 当 我 们 对 一 些 申 请 Sun 公 司 Pascal 编 译 器 工作 职位 的 候选 人 进行 面试 
时 ， 了 最 好 的 那 位 候选 人 《他 最 终 获 得 了 这 个 工作 一 一 嗨 ! Arindam) 解释 说 这 些 
区 别 与 编译 器 的 中 间 代 码 有 关 ， 例 如 “++x” 表 示 取 x 的 地 址 ， 增 加 它 的 内 容 ， 然 后 
把 值 放 在 寄存 器 中 ; “x++” 则 表示 取 x 的 地 址 ， 把 它 的 值 装 入 寄存 器 中 ， 然 后 增加 
内 存 中 的 x 的 值 。 顺 便 问 一 句 ， 使 用 编译 器 的 术语 ， 另 外 两 条 语句 应 该 怎么 描 


述 ? 


尽管 Kernighan 和 Ritchie 认 为 自 增 操作 比 直 接 加 1 更 有 效率 (K&R2, 第 18 

页 ) ， 但 目前 所 使 用 的 当代 编译 器 通常 在 这 方面 都 做 得 很 好 ， 使 这 几 种 方法 的 速 
度 都 一 样 。 如 果 没 有 任何 能 够 显示 它们 之 间 区 别 的 相关 上 下 文 环境 ， 那 么 现代 的 
C 编 译 器 在 编译 这 些 语句 时 应 该 产生 相同 的 指令 。 它 们 应 该 是 增加 一 个 变量 时 最 
快 的 指令 。 你 可 以 在 喜欢 的 编译 器 上 编译 这 些 代码 ， 编 译 器 应 该 有 一 个 选项 ， 可 
以 产生 一 个 汇编 指令 列表 。 你 也 可 以 把 编译 器 设置 为 调试 模式 ， 这 样 也 常常 可 以 
更 容易 检查 对 应 的 C 语 句 和 汇编 指令 。 不 要 使 用 优化 选项 ， 因 为 这 些 语句 有 可 能 
因为 优化 而 被 精简 掉 。 在 Sun 的 工作 站 中 ， 附 上 神奇 的 魔 完 “-S”， 使 命令 行 看 上 去 
如 下 : 


CC -S -Xc banana.c 


这 个 -S 选 项 使 编译 停 在 汇编 阶段 ， 把 汇编 语言 指令 输出 到 banana.s 文 件 中 。 最 
新 的 编译 器 SPARCompilers 3.0 做 了 改进 ， 当 使 用 这 个 选项 时 ， 它 可 以 使 源 代 码 散 
布 于 汇编 程序 输出 文件 中 。 这 就 使 得 寻找 问题 和 诊断 代码 生成 变 得 更 加 容易 。 


-Xc 选 项 告诉 编译 器 拒绝 任何 不 符合 ANSI C 的 代码 结构 。 在 编写 新 代码 时 始 
终 使 用 这 个 选项 是 一 个 好 主意 ， 因 为 它 有 助 于 程序 获得 最 大 程度 的 可 移植 性 。 


所 以 ， 有 时 候 区 别 就 在 于 哪 一 个 在 源 代 码 中 看 上 去 更 好 一 点 。 一 般 较 短 的 形 
式 比 较 长 的 形式 更 容易 阅读 一 些 。 然 而 ， 过 度 简 洁 也 会 导致 代码 难以 阅读 《你 只 
要 问 问 那些 试图 修改 他 人 APL 代 码 的 人 就 知道 了 ) 。 当 我 还 是 一 个 系统 编程 研究 
生 班级 的 助教 时 ， 一 位 学 生 让 我 看 一 些 代 码 ， 他 说 代码 里 存在 一 个 未 知 的 Bug， 
但 是 由 于 代码 过 于 紧凑 ， 所 以 无 法 把 它 找 出 来 。 在 一 些 高 年 级 C 程 序 员 的 嘲笑 声 
中 ， 我 们 系统 地 把 类 似 下 面 的 单行 代码 : 


frotz[--j + i++] += --y; 


扩展 为 功能 相同 但 长 度 更 长 的 : 


yy) 


-J]， 
frotz[j+i] = frotz[j+i] + y; 
I++ 


这 让 那 位 喜爱 玩弄 技巧 的 程序 员 颇 感 忻 恼 ， 使 用 这 种 方法 ， 我 们 一 下 子 就 发 
现 其 中 一 个 操作 位 置 有 误 。 


教训 : 不 要 在 一 行 代码 里 实现 太 多 的 功能 


这 种 做 法 并 不 能 使 编译 器 产生 的 代码 更 有 效率 ， 而 且 会 使 你 丧失 调试 代码 的 
机 会 。 正 如 Kernighan 和 Plauger 所 指出 的 那样 , “人 人 都 知道 调试 比 第 一 次 编写 代 
码 要 难 上 一 倍 。 所 以 如 果 在 编写 代码 时 把 自己 的 聪明 发 挥 到 极致 ， 那 么 在 调试 时 
又 该 怎么 办 呢 ? ?1 


A.4 库 函 数 调用 和 系统 调用 区 别 何在 


这 个 问题 我 们 时 和 常用 来 考察 候选 人 是 否 知道 他 编程 的 方法 是 否 简 单 。 令 人 祭 
奇 的 是 ， 许 多 人 从 来 没有 想 过 这 个 问题 。 我 们 并 不 曾 见 到 描述 这 个 区 别 的 图 书 ， 
所 以 这 是 个 很 好 的 问题 ， 可 以 判断 候选 人 是 否 具 有 丰富 的 编程 经 验 以 及 是 否 具 有 
找 出 这 类 问题 的 答案 的 敏锐 感觉 。 


简明 的 回答 是 函数 库 调用 是 语言 或 应 用 程序 的 一 部 分 ， 而 系统 调用 是 操作 系 
统 的 一 部 分 。 你 要 确保 弄 懂 “trap”( 自 陷 ) 这 个 关键 字 的 含义 。 系 统 调用 是 在 操作 
系统 内 核发 现 一 个 trap 或 中 断后 进行 的 。 这 个 问题 的 完整 答案 需要 覆盖 表 A-1 中 列 
出 的 所 有 要 点 。 


表 A-1 函数 库 调 用 vs. 系 统 调用 


函数 库 调用 系统 调用 


在 所 有 的 ANSI C 编 译 器 版 本 中 ，C 函 数 库 是 
相同 的 


各 个 操作 系统 的 系统 调用 是 不 同 的 


它 调用 函数 库 中 的 一 个 程序 巴 调 用 系统 内 核 的 服务 

与 用 户 程序 相 联系 是 操作 系统 的 一 个 进入 点 

在 用 户 地 址 空间 执行 在 内 核 地 址 空间 执行 

巴 的 运行 时 间 属 于 “用 户 ” 时 间 巴 的 运行 时 间 属 于 “系统 ”时 间 


需要 切换 到 内 核 上 下 文 环境 然后 切换 回来 ， 开 
销 较 大 


属于 过 程 调 用 ， 开 销 较 小 


在 UNIX 中 有 大 约 90 个 系统 调用 (MS-DOS 中 少 
一 些 ) 


在 C 函 数 库 libc 中 有 大 约 300 个 程序 


记录 于 UNIX OS 手册 的 第 三 节 记录 于 UNIX OS 手册 的 第 二 节 


型 的 C 函 数 库 调 用 : system、fprintf、 


malloc 


典型 的 系统 调用 : chdir、fork、write、brk 


库 函 数 调 用 通常 比 行内 展开 的 代码 慢 ， 因 为 它 需 要 付出 函数 调用 的 开销 。 但 
系统 调用 比 库 函 数 调用 还 要 慢 很 多 ， 因 为 它 需 要 把 上 下 文 环境 切换 到 内 核 模式 。 
在 SPARC 工 作 站 上 ， 我 们 对 一 个 库 函 数 调用 进行 记 时 《就 是 一 个 过 程 调 用 的 速 
度 ) ， 结 果 大 约 是 0.5 微 秒 。 系 统 调用 所 需要 的 时 间 大 约 是 库 函 数 调 用 的 70 倍 (35 
微 秒 〉。 纯 粹 从 性 能 上 考虑 ， 你 应 该 尽 可 能 地 减少 系统 调用 的 数量 。 但 是 ， 你 必 
须 记 住 ， 许 多 C 函 数 库 中 的 程序 通过 系统 调用 来 实现 功能 。 最 后 ， 那 些 相信 麦田 
怪圈 的 人 会 对 “system() 函 数 实际 上 是 一 个 库 函 数 ” 这 个 概念 感到 困惑 。 


编程 挑战 
Perlis 教 授 折磨 脑子 的 家 庭 作 业 
警告 ， 这 个 编程 挑战 对 于 有 些 读者 可 能 过 于 艰巨 


有 些 研究 生 学 校 也 使 用 编程 问题 来 测试 它们 的 新 生 。 在 耶鲁 大 学 ，Alan 
Perlis 教 授 〈Algol-60 的 创始 人 之 一 ) 曾 用 下 面 的 作业 《要 求 一 星期 内 完成 ) 测试 
他 刚 入 学 的 研究 生 。 


为 下 列 各 个 问题 编写 程序 。 


1. 读 取 一 个 字符 串 ， 并 输出 它 里 面 字符 的 所 有 组 合 。 


2.“ 八 星 后 ”问题 〈 假 设 棋盘 上 有 8 个 星 后 ， 要 求 打印 所 有 使 8 个 星 后 不 会 互相 
攻击 的 棋子 配置 ) 。 


3. 给 定 一 个 数 N， 要 求 列 出 所 有 不 大 于 N 的 素数 。 

4. 编写 一 个 子 程序 ， 进 行 两 个 任意 大 小 的 矩阵 乘法 运算 。 
研究 生 们 可 以 使 用 下 列 语言 之 一 : 

Le 

2. APL; 

3. Lisp; 

4. Fortran 。 


上 述 几 个 编程 问题 作为 研究 生 的 作业 ， 让 每 位 学 生 接 受 一 项 任务 还 是 比较 合 
理 的 。 但 现在 我 们 被 要 求 在 一 个 星期 之 内 完成 所 有 的 任务 ， 我 们 中 有 些 人 甚至 从 
来 没有 用 过 上 述 4 种 语言 。 


当然 ， 我 们 并 不 知道 Perlis 教 授 实际 上 只 想 考 考 我 们 ， 事 实 上 他 并 不 打算 捉弄 
任何 一 个 人 。 绝 大 部 分 新 研究 生 都 度 过 了 着 狂 的 一 周 ， 时 至 深夜 依然 暴 在 计算 机 
终端 ， 只 是 为 了 完成 这 些 折 磨 脑 子 的 任务 。 回 到 班 上 后 ， 教 授 要 求 自 愿 者 在 黑板 
上 演示 单个 语言 /问题 的 组 合 方案 。 


有 些 问 题 可 以 用 一 些 习 惯用 法 来 解决 ， 比 如 问题 3 就 可 以 用 一 行 APL 代 码 争 解 
决 : 


(2=+.6=T<. |T)/TeiN 


这 样 ， 如 果 谁 完成 了 这 些 作业 的 任何 一 部 分 ， 都 有 机 会 进行 展示 。 那 些 被 问 
题 所 难 倒 ， 哪 怕 一 小 部 分 也 没完 成 的 人 会 意味 到 他 们 可 能 并 不 适合 读 这 个 研究 
生 。 这 是 疯狂 且 巨 忙 的 一 周 ， 我 在 这 段 时 间 里 学 习 到 的 APL 或 LISP 的 知识 比 以 前 
几 年 以 及 以 后 几 年 里 加 起 来 学 到 的 还 要 多 。 


A.5 文件 擅 述 符 与 文件 指针 有 何不 同 


这 个 问题 是 前 面 一 个 问题 的 自然 延续 。 所 有 操纵 文件 的 UNIX 程 序 或 者 使 用 
文件 指针 ， 或 者 使 用 文件 描述 符 来 标识 它们 正在 操作 的 文件 。 它 们 是 什么 ? 什么 
时 候 应 该 使 用 ? 事实 上 答案 非常 直截了当 ， 它 取决 于 你 对 UNIX LO 的 熟悉 程度 以 
及 对 各 种 因素 利弊 的 权衡 。 


所 有 操纵 文件 的 系统 调用 都 接受 一 个 文件 描述 符 作 为 参数 ， 或 者 把 它 作 为 返 
回 值 返 回 。“ 文 件 描述 符 ” 这 个 名 字 多 少 显 得 有 点 命名 不 当 。 在 Sun 的 编译 器 中 ， 文 
件 描述 符 是 一 个 小 整数 (通常 为 0~255)〉 ， 用 于 索引 开放 文件 的 每 个 进程 表 
(per-process table-of-open-files) 。 系统 1/O 调 用 有 creat()、open()、read()、 
write()、close()、ioctl0 等 ， 但 它们 不 是 ANSI C 的 一 部 分 ， 不 会 存在 于 非 UNIX 环 
境 中 。 如 果 你 使 用 了 它们 ， 那 么 你 的 程序 将 失去 可 移植 性 。 因 此 ， 建 立 一 组 标准 
LO 库 调用 是 必要 的 ，ANSI C 现 在 规定 所 有 的 编译 环境 都 必须 支持 它们 。 


为 了 确保 程序 的 可 移植 性 ， 应 该 使 用 标准 WO 库 调用 ， 如 fopen()、fclose()、 
putc()、fssek0 等 一 一 它们 中 的 绝 大 多 数 名 字 中 带 有 一 个 f。 这 些 调用 都 接受 一 个 类 
型 为 指向 FILE 结 构 的 指针 (有 时 称 为 流 指 针 〉 的 参数 。FILE 指 针 指 向 一 个 流 结 
构 ， 它 在 <stdio.h> 中 定义 。 结 构 的 内 容 根据 不 同 的 编译 器 有 所 不 同 ， 在 UNIX 中 通 
常 是 开放 文件 的 每 个 进程 表 的 一 个 条 目 。 在 典型 情况 下 ， 它 包含 了 流 缓冲 区 、 所 
有 用 于 提示 缓冲 区 中 有 多 少 字 节 是 实际 文件 数据 的 变量 以 及 提示 流 状 态 的 标志 

(如 ERROR 和 EOF) 等 。 


。 所以， 文件 描述 符 就 是 开放 文件 的 每 个 进程 表 的 一 个 偏 移 量 〈 如 3) 。 它 用 于 
UNIX 系 统 调用 中 ， 用 于 标识 文件 。 

。 FILE 指 针 保 存 了 一 个 FILE 结 构 的 地 址 。FILE 结 构 用 于 表示 开放 的 IO 流 〈 如 
hex 20938) 。 它 用 于 ANSI C 标 准 IO 库 调用 中 ， 用 于 标识 文件 。 


C 库 函数 fdopen() 可 以 用 于 创建 一 个 新 的 FILE 结 构 ， 并 把 它 与 一 个 确定 的 文件 


描述 符 相 关联 (可 以 有 效 地 在 文件 描述 符 小 整数 和 对 应 的 流 指 针 间 进行 转换 ， 虽 
然 它 并 不 在 开放 文件 表 中 产生 一 个 额外 的 新 条 目 〉。 


A.6 编写 一 些 代 码 ， 确 定 一 个 变量 是 有 符号 数 还 是 无 人 特写 数 


有 一 位 同事 在 接受 Microsoft 的 面试 时 ， 其 中 一 个 题目 就 是 “编写 一 些 代码 ， 确 
定 一 个 变量 是 有 符号 数 还 是 无 符号 数 ”。 这 实际 上 是 一 个 相当 难 的 问题 ， 因 为 它 留 
下 了 太 多 的 空间 让 你 去 理解 这 个 问题 。 有 些 人 错误 地 把 * 有 符号 数 ? 同 “具有 负 
号 ”等同 起 来 ， 以 为 这 个 问题 只 需要 一 个 小 小 的 函数 或 安 ， 测 试 变量 的 值 是 否 小 于 
零 就 可 以 了 。 


问题 自然 没有 这 么 简单 。 要 回答 这 个 问题 ， 你 必须 在 特定 的 编译 器 中 确定 一 
个 给 定 的 类 型 是 有 符号 数 还 是 无 符号 数 。 在 ANSI C 中 ，char 既 可 以 是 有 符号 数 ， 
也 可 以 是 无 符号 数 ， 这 是 由 编译 器 决定 的 。 当 你 编写 的 代码 需要 移植 到 多 个 平台 
时 ， 知 道 类 型 是 不 是 有 符号 数 就 非常 有 用 了 。 如 果 该 类 型 在 所 有 的 编译 器 上 编译 
时 都 是 恒定 的 ， 那 就 再 理想 不 过 了 。 


你 无 法 用 函数 实现 目的 。 函 数 形式 参数 的 类 型 是 在 函数 内 部 定义 的 ， 所 以 它 
无 法 穿越 调用 这 一 关 。 因 此 ， 必 须 编写 一 个 宏 ， 根 据 参 数 的 声明 对 它 进行 处 理 。 


接 下 来 就 是 区 别 宏 的 参数 到 底 是 一 个 类 型 还 是 一 个 类 型 的 值 。 假 定 参 数 是 一 
个 值 ， 无 符号 数 的 本 质 特征 是 它 永 远 不 会 是 负 的 ， 有 符号 数 的 本 质 特征 是 对 最 左 
边 一 个 位 取 补 将 会 改变 它 的 符号 (比如 2 的 补 码 表 示 ， 它 上 表 定 是 个 负数 ) 。 由 于 
作为 参数 的 这 个 值 的 其 他 位 与 这 个 测试 无 天 ， 因 此 对 它们 全 部 取 补 后 结果 是 一 样 
的 。 因 此 ， 可 以 像 下 面 这 样 尝试 : 


#define ISUNSIGNED(a) (a >=6 && ~a >= 0) 


如 果 宏 的 参数 是 一 个 类 型 ， 其 中 一 个 方法 是 使 用 类 型 转换 : 


#define ISUNSIGNED(type) ((type)6 - 1 > 90) 


面试 的 关键 就 在 于 正确 理解 问题 ! 你 需要 仔细 地 听 ， 如 果 不 理解 问题 或 者 觉 


得 它 的 定义 不 清 ， 可 以 要 求 一 个 更 好 的 解释 。 第 一 个 代码 例子 只 适用 于 K&R C， 
新 的 类 型 提升 规则 导致 它 无 法 适用 于 ANSI C。 练 习 : 解释 一 下 为 什么 ， 并 提供 一 
个 适用 于 ANSI C 的 解决 方案 。 


Microsoft 的 绝 大 部 分 问题 都 想 考察 你 在 压力 下 能 够 怎样 思考 问题 ， 但 它们 并 
不 都 是 技术 性 的 。 一 个 典型 的 非 技术 性 问题 可 能 是 “美国 一 共有 多 少 个 加 油 
站 ? ?或 “美国 一 共有 多 少 个 理发 店 ? ”他 们 想 看 看 你 是 否 作 出 正确 的 猜测 和 估计 ， 
或 者 能 够 提供 一 种 寻找 更 可 靠 答案 的 好 方法 。 建 议 ， 打 电话 给 各 个 州 的 执照 发 放 
机 构 ， 只 要 50 个 电话 ， 你 就 可 以 获得 准确 的 数字 。 或 者 ， 你 也 可 以 选 六 七 个 有 代 
表 性 的 州 ， 根 据 样本 推 灯 出 总 体 数量 。 你 甚至 可 以 像 一 位 环保 主义 者 那样 回答 ， 
当 被 问 及 “美国 有 多 少 个 加 油 站 时 ?时 ， 她 生气 地 回答 :“ 太 多 了 ! ” 


A.7 打印 一 柠 二 又 树 的 值 的 时 间 复 杂 度 是 多 少 


这 个 问题 是 面试 者 在 申请 Intel 编 译 器 小 组 的 一 个 职位 时 被 问 到 的 。 现 在 ， 关 
于 复杂 度 理 论 首先 需要 知道 的 是 大 0 表示 法 。O(GN) 表 示 当 N (通常 是 需要 处 理 的 
对 象 数量 ) 增长 时 ， 处 理 时 间 几 乎 是 按照 线性 增长 的 。 类 似 ，O(N”) 表 示 当 N 增 长 
时 ， 处 理 时 间 的 增长 要 快 得 多 ， 大 致 是 按照 N 的 平方 增长 的 。 关 于 复杂 上 度 理论 其 
次 需要 知道 的 是 在 一 棵 二 又 树 中 ， 所 有 操作 的 时 间 复 杂 度 都 是 DOdogCn))。 所 以 ， 
很 多 程序 员 不 假 思 索 地 作出 了 这 个 回答 。 错 误 ! 


这 个 问题 有 点 类 似 于 Dan Rather 闭 名 的 “频率 是 什么 ，Kenneth? ”问题 一 一 这 
个 问题 用 于 干扰 、 混 清和 激怒 对 方 而 不 是 真 的 癌 对 方 咨询 信息 。 要 打印 一 棵 二 叉 
树 所 有 节点 的 值 ， 必 须 对 它们 逐个 访问 ， 所 以 时 间 复 杂 度 为 O(N)。 


我 的 一 些 同 事 在 接受 惠普 公司 电子 工程 师 职 位 的 面试 时 ， 也 遇 到 了 类 似 的 陷 
阱 问题 。 这 个 问题 是 : 在 一 个 没有 阻抗 的 理想 电路 中 ， 一 个 充 了 电 的 电容 右 和 一 
个 未 充电 的 电容 器 突然 接触 在 一 起 时 ， 会 发 生 什 么 情况 ”机械 工程 师 职 位 的 面试 
题 则 是 两 根 质量 忽略 不 计 的 弹 赞 从 平衡 位 置 拉 紧 ， 然 后 松 开 会 发 生 什 么 ? 主考 官 
分 别 运用 两 个 不 同 的 物理 定理 (如 电容 器 例子 中 电 蓓 守恒 定理 和 能 量 守恒 定理 ) 
推导 出 两 个 不 同 的 结论 ， 然 后 他 询问 面试 者 为 什么 会 出 现 两 种 不 同 的 结果 ? 原因 
何在 ? 


这 里 的 陷阱 在 于 主考 官 至 少 在 表达 其 中 一 个 结论 时 使 用 了 一 个 割裂 了 初始 条 
件 和 结束 条 件 的 积分 公式 。 在 现实 世界 中 ， 这 确实 没 错 ， 但 在 理论 性 的 实验 上 ， 
它 导 致 了 对 不 连续 状态 的 积分 〈“ 因 为 减速 效果 被 理想 化 了 ) 。 这 样 ， 这 个 公式 不 
再 适用 。 工 程 师 很 可 能 以 前 从 来 没有 碰 到 过 这 类 问题 。 这 些 类 似 无 质量 弹簧 和 无 
阻抗 电路 的 问题 每 次 当 你 遇 上 时 都 会 使 你 难堪 ! 


但 是 ， 应 试 者 在 申请 一 家 大 型 管理 咨询 公司 的 一 个 软件 顾问 职位 时 ， 主 考官 


又 抛 出 了 另 一 个 弧 线 球 ， 问 题 是 “如 果 execve 系 统 调 用 成 功 ， 它 将 返回 什么 ?” 回 
顾 一 下 ，execve() 函 数 用 参数 中 的 可 执行 文件 玲 换 调用 者 进程 的 映像 并 开始 执行 。 
所 以 ， 当 execve 系 统 调 用 成 功 执行 后 ， 它 并 不 会 返回 一 个 值 。 把 这 些 陷阱 问题 用 
于 酉 难 你 的 朋友 确实 很 有 趣 ， 但 如 果 在 面试 中 遇 到 它们 就 不 太 有 趣 了 。 


A.8 ”从 文件 中 随机 提取 一 个 字符 串 


这 也 是 Microsoft 喜 欢 使 用 的 问题 之 一 。 主 考官 要 求 面试 者 编写 一 些 代 码 ， 从 
一 个 文件 (文件 的 内 容 是 许多 字符 串 ) 中 随机 提取 一 个 字符 串 。 解 决 这 个 问题 的 
经 典 方法 是 读 取 文件 ， 对 字符 串 进行 计数 ， 并 记录 每 个 字符 串 的 偏 移 位 置 。 然 
后 ， 在 1 和 字符 串 总 数 之 间 取 一 个 随机 数 ， 根 据 选中 字符 串 的 偏 移 位 置 取出 该 字 
符 串 。 


但 是 ， 主 考官 设置 了 一 些 条 件 ， 使 这 个 问题 的 难度 大 大 增加 。 他 要 求 只 能 按 
顺序 遍历 文件 一 次 ， 并 且 不 能 使 用 表格 来 存储 所 有 字符 串 的 偶 移 位 置 。 对 于 这 个 
问题 ， 主 考官 的 主要 兴趣 在 于 你 如 何 解决 问题 的 过 程 。 如 果 你 提问 ， 他 会 给 你 一 
些 提示 ， 所 以 大 多 数 面 试 者 最 终 都 能 获得 答案 。 主 考官 对 你 的 满意 程度 取决 于 你 
获得 答案 的 速度 。 


基本 的 技巧 是 在 笠 存 的 字符 串 中 挑选 ， 并 在 过 程 中 不 断 更 新 。 从 计算 的 角度 
看 ， 这 个 方法 是 非常 低 效 的 ， 所 以 它 很 容易 被 忽略 。 你 打开 文件 并 保存 第 一 个 字 
符 串 ， 此 时 就 有 了 一 个 备 选 字符 串 ， 并 有 100% 的 可 能 性 选中 它 。 保 存 这 个 字符 
串 ， 继 续 读 入 下 一 个 字符 串 ， 这 样 就 有 了 两 个 备 选 字符 串 ， 选 中 每 个 的 可 能 性 都 
是 50%。 选 中 其 中 之 一 并 保存 ， 然 后 丢弃 男 一 个 。 再 读 入 下 一 个 字符 串 ， 按 照 新 
字符 串 33% 的 概率 原先 幸存 的 字符 串 67% 的 概率 〈 它 代表 前 两 个 字符 串 的 幸存 
者 ) ， 在 两 者 之 间 选 择 一 个 ， 然 后 保存 新 选中 的 字符 串 。 


根据 这 个 方法 ， 依 次 对 整个 文件 进行 处 理 。 在 其 中 每 一 步 ， 读 入 字符 串 N， 
在 它 《〈 按 照 UN 的 概率 ) 和 前 一 个 幸存 的 字符 串 〈 按 照 N-UN 的 概率 ) 之 间 进 行 选 
择 。 当 到 达 文 件 末尾 的 时 候 ， 最 后 一 个 幸存 的 字符 串 就 是 从 整个 文件 中 随机 提取 
的 那个 字符 串 ! 


是 一 个 非常 艰难 的 问题 ， 你 要 么 依靠 尽 可 能 少 的 提示 获得 答案 ， 要 么 就 预 


先 做 好 充分 准备 ， 提 前 阅读 本 书 。 


A.9 轻松 一 下 一 如 何 用 气压 计 测 量 建筑 物 的 高 度 


我 们 觉得 这 些 问 题 乐 趣 无 穷 ， 甚 至 还 把 它们 应 用 到 上 自己 的 非 计 算 机 环境 中 。 
Sun 有 一 个 叫 *unk mail* 的 邮件 账号 ， 用 来 让 员工 共享 偶然 兴 之 所 致 得 到 的 灵感 。 
os 人 们 把 问题 放 到 这 个 账号 中 ， 并 要 求 其 他 工程 师 进行 比赛 ， 提 交 最 佳 答 

这 里 就 有 这 样 一 个 难题 ， 它 是 最 近 才 放 上 去 的 。 


有 一 个 很 早 的 故事 ， 讲 的 是 一 位 物理 系 学 生 寻 找 新 奇 的 方法 用 气压 计 测量 一 
尽 建 筑 物 的 高 度 。Alexander Calandrain 在 The Teaching of Elementary Science and 
MathematicsI3 中 引述 了 这 个 故事 。 


一 位 学 生 考试 被 判 不 及 格 ， 因 为 他 拒绝 使 用 班 上 老师 所 教 的 方法 回答 问题 。 


当 这 名 学 生 提 出 抗议 时 ， 学 校 指 定 我 担任 仲裁 人 。 我 来 到 教授 的 办 公 室 ， 阅 读 了 
考试 题 : “怎样 在 气压 计 的 帮助 下 测量 一 幢 高 楼 的 高 度 ? ” 


这 位 学 生 是 这 样 回 答 的 :“ 把 气压 计 带 到 楼 项 ， 用 一 根 长 绳 系 住 。 把 气压 计 放 
低 ， 直 到 触及 街 面 ， 然 后 再 提起 来 ， 测 量 绳子 的 长 度 。 绳 子 的 长 度 就 是 建筑 物 的 


高 分 的 回答 应 该 是 充分 运用 物理 学 的 原理 ， 但 这 个 回答 显然 没 说 明 这 一 
我 提议 给 这 位 学 生男 一 次 机 会 回答 这 个 问题 end 于 
警告 他 答案 必须 与 物理 学 的 知识 有 关 。 结 果 他 只 用 了 1 分 钟 就 交 上 了 答案 :“ 把 气 
压 计 带 到 楼 顶 ， 倚 在 屋顶 的 边缘 上 ， 然 后 放 开 气压 计 ， dee 然 
后 ， 运 用 物体 下 险 公 式 〈S=1/2 at) 计算 建筑 物 的 高 度 。” 此 时 ， 我 毫 不 犹豫 地 
给 了 这 位 学 生 满分 


这 位 学 生 继 续 说 出 了 3 种 运用 气压 计 测 量 建 筑 物 高 度 的 方法 。 


。 在 阳光 灿烂 的 日 子 里 ， 测 量 气 压 计 的 高 度 、 气 压 计 影子 的 高 度 以 及 建筑 物 影 


子 的 高 度 ， 然 后 运用 简单 的 比例 原理 ， 计 算出 建筑 物 的 高 度 。 


。 禹 上 气压 计 走 上 建筑 物 的 楼 梯 。 当 你 仆 楼 梯 时 ， 用 气压 计 的 高 度 在 墙 上 作 标 
记 。 到 达 楼 顶 后 ， 数 一 下 标记 的 数量 ， 你 就 可 以 得 到 以 气压 计 高度 为 单位 的 
建筑 物 高 度 。 


。 最 后 一 种 方法 《也 许 最 不 可 行 ) 是 把 气压 计 送 给 建筑 物 的 管理 员 ， 让 他 告诉 
你 建筑 物 的 高 度 。 


当 这 个 老 掉 牙 的 故事 作为 一 个 “科学 难题 ”出 现在 Sun 时 ， 人 们 又 重新 激 起 了 对 
它 的 热情 ， 总 共 提 出 了 16 种 新 的 用 气压 计 测量 建筑 物 高 度 的 好 方法 。 这 些 方法 如 
下 。 


气压 法 : 分 别 测量 楼 顶 和 楼 底 的 气压 ， 然 后 根据 气压 差 计算 大 楼 的 高 度 。 这 
个 方法 是 这 个 问题 最 初 设计 时 的 标准 答案 ， 也 是 测量 大 楼 高 度 最 不 精确 的 方法 之 


钟 摆 法 :来 到 建筑 物 的 顶部 ， 用 绳子 系 住 气压 计 ， 把 它 放 低 到 地 面 。 然 后 晃 
动 气压 计 ， 测 量 钟 摆 的 摆动 时 间 ， 根 据 摆 动 时 间 可 以 计算 出 钟 摆 的 长 度 ， 也 就 是 
建筑 物 的 高 度 。 


贪 殖 法 : 把 气压 计 当 掉 ， 换 取 一 点 种 子 基金 。 然 后 用 连锁 信 方 法 (或 称 为 神 
秘 链 方法 ) 积累 一 大 笔 钱 ， 把 这 笔 钱 堆 得 和 大 楼 一 样 高， 然后 根据 每 张 纸 币 的 厚 
度 和 纸币 的 张 数 计算 大 楼 的 高 度 。 这 个 方法 并 没有 提 及 如 何在 警察 邮 讯 赶 来 之 前 
完成 对 大 楼 的 测量 


黑手 党 法 : 用 气压 计 作 为 武器 ， 威 融 大 楼 的 管理 员 说 出 大 楼 的 高 度 。 


弹道 法 : 在 地 面 上 用 一 架 迫 击 炮 把 气压 计 送 上 半空 ， 让 和 它 正 好 到 达 楼 项 的 高 
度 。 你 可 能 需要 进行 几 次 距离 修正 发 射 ， 以 获得 刚好 能 把 气压 计 送 到 大 楼 高 度 的 
发 射 方法 。 运 用 标准 弹道 计算 表 ， 你 可 以 计算 出 这 次 弹道 发 射 的 高 度 ， 也 就 是 大 


楼 的 高 度 。 


镇 纸 法 : 把 气压 计 作 为 镇 纸 压 在 建筑 物 设 计 图 纸 上 ， 然 后 从 图 纸 上 找 出 建筑 
物 的 高 度 。 


音速 法 ， 从 大 楼 的 顶部 把 气压 计 扔 下 来 ， 测 量 气压 计 撞 击 地 面 和 你 听 到 撞击 
声 的 时 间 差 。 在 实际 可 行 的 距离 内 ， 视 觉 传递 的 时 间 可 以 忽略 不 计 ， 而 声音 的 传 
递 速度 〈 在 标准 温度 和 气压 条 件 下 是 340 米 / 秒 ) 是 已 知 的， 根据 上 面 这 些 数 据 可 
以 计算 出 大 楼 的 高 度 。 


反射 法 : 把 气压 计 的 玻璃 面 作为 镜子 ， 测 量 镜面 反射 亮光 从 楼 项 到 地 面 的 来 
回 时 间 ， 由 于 光 的 速度 是 一 个 已 知 量 ， 所 以 大 楼 的 高 度 也 可 以 据 此 测 出 。 


商业 法 : 卖 掉 气压 计 ， 用 这 笔 钱 买 一 些 适当 的 仪器 测量 大 楼 的 高 度 。 


类 比 法 : 用 一 根 强 子 系 住 气压 计 ， 把 强 子 绕 在 一 个 小 型 发 电机 的 轴 上 。 然 后 
把 气压 计 从 大 楼 项 上 扔 下 来 ， 绳 子 就 会 使 发 电机 转动 。 测 量 气 压 计 从 楼 顶 挥 到 地 
面 期 间 发 电机 所 发 的 电 。 发 电机 产生 的 电能 和 轴 旋 转 的 圈 数 是 成 正比 的 ， 根 据 这 
些 数据 可 以 算出 楼 顶 到 地 面 的 高 度 。 


三 角 法 : 在 地 面 上 选 一 点 ， 它 和 大 楼 的 距离 是 已 知 的 。 带 上 气压 计 和 一 个 量 
角 器 来 到 大 楼 的 项 部， 等 等 太 阳 到 达 水 平 线 。 然后， 把 气压 计 当 作 镜 子 ， 把 一 束 
日 光 引 到 先前 所 设 定 的 地 点 ， 用 量 角 器 测量 气压 计 的 角度 ， 然 后 用 三 角 学 原理 计 
算 大 楼 的 高 度 。 


比例 法 : 测量 气压 计 的 高 度 。 你 可 以 叫 一 个 朋友 ， 并 带 上 一 把 卷 尺 。 趴 在 大 
楼 外 已 知 距 离 的 一 点 ， 气 压 计 放 在 你 和 大 楼 之 间 ， 调 整 气压 计 的 位 置 ， 从 你 看 上 
去 气压 计 上 端正 好 与 楼 顶 相 平 。 然 后 叫 你 的 朋友 测量 你 的 眼睛 距离 气压 计 的 距 
离 ， 最 后 根据 比例 原理 计算 出 大 楼 的 高 度 。 


照相 法 ， 从 大 楼 外 已 知 距离 的 地 点 支 起 三 角 架 ， 架 上 是 照相 机 。 然 后 把 气压 


计 放 在 与 照相 机 距离 已 知 的 地 方 ， 拍 下 照片 。 根 据 照 片 中 气压 计 和 大 楼 的 相对 高 
度 ， 你 可 以 计算 出 大 楼 的 实际 高 度 。 


重力 法 工 : 用 长 强 系 住 气 压 计 ， 从 大 楼 上 挂 下 来 直到 地 面 。 测 量 钟 摆 的 摆动 
时 间 ， 根 据 重力 加 速度 的 差别 计算 出 大 楼 的 高 度 。 


重力 法 工 : 在 大 楼 的 项 部 和 底部 分 别 用 弹 筑 秤 测量 气压 计 的 重量 (不 能 用 天 
平 种 〉》， 两 个 重量 应 该 有 所 差别 ， 这 是 由 于 重力 加 速度 的 差异 引起 的 (一 位 读者 
告诉 我 Lacoste Romberg 重 力 计 能 够 提供 准确 结果 所 需要 的 精度 ) 。 你 可 以 根据 这 
两 个 读数 计算 出 大 楼 的 高 度 。 


卡路里 法 把 气压 计 从 楼 顶 扔 下 来 ， 掉 到 地 面 一 个 沪 有 水 的 容器 里 。 容 器 的 
开口 应 尽量 小 ， 尺 可 能 防止 水 的 溅 出 。 水 温 的 升 蜗 是 气压 计 的 机 械 能 转换 为 热能 
的 结果 ， 根 据 水 温 升 高 的 度数 可 以 计算 出 气压 计 到 达 地 面 的 势能 ， 进 一 步 可 以 计 
算出 大 楼 的 高 度 。 


你 是 不 是 认为 这 样 的 问题 只 会 在 代数 学 里 出 现 。 


A.10 更 多 阅读 材料 


如 果 你 喜欢 本 书 ， 你 可 能 也 会 喜欢 Bartholomev and the Oobleck, 作 者 是 Seuss 
博士 (纽约 ，Random House，1973) 。 


Seuss 博 士 解释 说 ，Oobleck 惑 是 “拳头 大 小 的 团 状 物 ， 表 面 光 滑 ， 就 像 是 用 橡 
皮 制 作 的 土豆 团子 ”， 但 他 没有 说 明 如 何 制 造 忌 ， 所 以 我 在 这 里 提供 了 一 种 方法 。 


如 何 制造 Oobleck 


1. 取 一 杯 玉米 淀粉 。 


2. 加 儿 滴 绿色 的 食用 色素 。Oobleck 的 颜色 总 是 绿 的 。 


3. 一 边 加 水 ， 一 边 绥 缓 捏 制 洗 粉 团 ， 总 共 大 约 加 半 杯 水 。 


Oobleck 有 一 些 极端 奇怪 、 不 符合 牛顿 定律 的 属性 。 它 像 水 一 样 流 过 你 的 指 
尖 ， 除 非 你 把 它 挤 成 一 团 一 一 它 会 立即 保持 固体 的 坚固 性 。 如 果 停 止 搓 捍 ， 它 又 
会 变 加 液态 。 如 采用 硬 物 快速 击 打 它 ， 那 么 它 就 会 被 击 碎 ! 


和 Seuss 博 士 的 所 有 书 一 样 ，Bartholomev and the Oobleck 可 以 从 好 几 个 层次 
上 阅读 和 欣赏 。 例 如 ，One Fish Two Fish, Red Fish Blue Fish 可 以 被 分 解 为 思维 单 
一 的 二 进 制 计数 系统 的 血泪 控诉 。 软 件 工 程 师 如 果 细 心 阅 读 Bartholomev and the 
Oobleck， 肯 定 能 从 中 获 益 。 


如 果 每 位 程序 员 只 是 偶尔 玩弄 Oobleck， 这 个 世界 则 会 美好 许多 。 优 秀 的 程序 
员 将 会 休息 得 更 好 ， 精 力 更 加 充沛 ， 而 整 脚 的 程序 员 则 很 可 能 困 得 脑袋 常常 和 桌 
子 打架 。 但 是 ， 始 终 应 该 记 住 ， 无 论 你 是 一 位 极其 平凡 的 程序 员 ， 还 是 一 位 广 受 
赞誉 的 天 才 高 手 ， 你 都 是 宇宙 的 一 个 子 进程 ， 跟 磁盘 控制 器 或 者 堆栈 活动 记录 
(第 6 章 详 细 介 绍 ) 没什么 两 样 。 


据说 当 你 两 眼 深 深 地 凝视 深渊 时 ， 深 渊 也 同样 凝视 着 你 。 但 是 ， 如 果 你 深 深 
地 凝视 本 书 ， 显 然 并 不 十 分 优雅 ， 另 外 你 很 可 能 患 有 头痛 或 其 他 疾患 。 


我 无 法 想象 ， 除 了 计算 机 编程 之 外 ， 我 还 能 做 些 什 么 工作 。 在 所 有 的 日 子 
里 ， 你 从 虚幻 中 创建 模式 和 结构 ， 并 顺便 解决 数 十 个 小 问题 。 人 脑 的 聪明 和 天 才 
被 推 在 计算 机 的 高 速度 和 准确 性 上 。 


事实 就 是 如 此 。 人 类 的 最 高 目标 是 奋斗 、 寻 求 、 创 造 。 每 位 程序 员 都 应 该 寻 
找 并 抓 住 每 一 次 机 会 ， 使 自己 .….….. 哇 ! 写 得 太 多 了 。 
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